用户指南 - developer-res-cbc-cn.obs.cn-north-1...

机器学习服务

用户指南

文档版本 01

发布日期 2017-05-05

华为技术有限公司

版权所有 © 华为技术有限公司 2017。保留一切权利。

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传

播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标，由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或

特性可能不在您的购买或使用范围之内。除非合同另有约定，华为公司对本文档内容不做任何明示或默示的声

明或保证。

由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文

档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司

地址：深圳市龙岗区坂田华为总部办公楼邮编：518129

网址： http://e.huawei.com

文档版本 01 (2017-05-05) 华为专有和保密信息

版权所有 © 华为技术有限公司

i

http://e.huawei.com

目录

1 简介................................................................................................................................................... 11.1 机器学习服务简介........................................................................................................................................................ 11.2 应用场景........................................................................................................................................................................ 11.3 与其他云服务的关系.................................................................................................................................................... 11.4 常用概念........................................................................................................................................................................ 21.4.1 MLS 的管理概念........................................................................................................................................................ 21.4.2 MLS 的算法概念........................................................................................................................................................ 31.5 功能介绍........................................................................................................................................................................ 31.5.1 拖拽式操作................................................................................................................................................................. 41.5.2 丰富的功能算子......................................................................................................................................................... 41.6 访问和使用.................................................................................................................................................................... 61.6.1 如何访问..................................................................................................................................................................... 61.6.2 如何使用..................................................................................................................................................................... 61.6.3 约束限制..................................................................................................................................................................... 61.6.4 计费标准..................................................................................................................................................................... 6

2 入门................................................................................................................................................... 72.1 概述................................................................................................................................................................................ 72.2 创建 MLS 实例.............................................................................................................................................................. 72.2.1 创建虚拟私有云和安全组......................................................................................................................................... 72.2.2 创建 MRS 集群...........................................................................................................................................................82.2.3 创建 MLS 实例........................................................................................................................................................... 92.3 访问 MLS 实例的工作界面........................................................................................................................................ 102.4 创建 MLS 数据挖掘方案............................................................................................................................................ 112.4.1 分析业务................................................................................................................................................................... 112.4.2 收集和上传数据....................................................................................................................................................... 132.4.3 创建项目................................................................................................................................................................... 142.4.4 创建资源模板........................................................................................................................................................... 142.4.5 关联资源模板到项目............................................................................................................................................... 152.4.6 创建工作流............................................................................................................................................................... 152.4.7 读取数据................................................................................................................................................................... 162.4.8 预处理数据............................................................................................................................................................... 172.4.9 模型的训练与预测................................................................................................................................................... 182.4.10 输出结果与评估模型............................................................................................................................................. 21

机器学习服务用户指南目录

文档版本 01 (2017-05-05) 华为专有和保密信息版权所有 © 华为技术有限公司

ii

2.4.11 输出模型（可选）................................................................................................................................................. 25

3 MLS 实例生命周期管理............................................................................................................... 273.1 访问 MLS 管理控制台................................................................................................................................................ 273.2 创建 MLS 实例............................................................................................................................................................ 283.3 查看 MLS 实例基本信息............................................................................................................................................ 303.4 删除 MLS 实例............................................................................................................................................................ 303.5 重启 MLS 实例............................................................................................................................................................ 303.6 查看监控信息.............................................................................................................................................................. 31

4 MLS 业务操作............................................................................................................................... 324.1 概述.............................................................................................................................................................................. 324.2 管理数据...................................................................................................................................................................... 324.2.1 管理数据概述........................................................................................................................................................... 324.2.2 上传数据至 OBS...................................................................................................................................................... 334.2.3 导入数据到 HDFS.................................................................................................................................................... 344.2.4 预览数据................................................................................................................................................................... 354.3 管理项目...................................................................................................................................................................... 364.3.1 创建项目................................................................................................................................................................... 364.3.2 查看项目................................................................................................................................................................... 374.3.3 编辑项目................................................................................................................................................................... 384.3.4 导出项目................................................................................................................................................................... 384.3.5 删除项目................................................................................................................................................................... 394.3.6 增加项目备注信息................................................................................................................................................... 394.4 管理工作流.................................................................................................................................................................. 404.4.1 创建工作流............................................................................................................................................................... 404.4.2 运行工作流............................................................................................................................................................... 404.4.3 查看工作流运行结果............................................................................................................................................... 414.4.4 工作流的其他操作................................................................................................................................................... 424.5 管理资源模板.............................................................................................................................................................. 434.5.1 创建资源模板........................................................................................................................................................... 434.5.2 使用资源模板........................................................................................................................................................... 444.5.3 编辑资源模板........................................................................................................................................................... 444.5.4 删除资源模板........................................................................................................................................................... 454.6 编排算子...................................................................................................................................................................... 454.6.1 进入工作流编排界面............................................................................................................................................... 454.6.2 操作算子................................................................................................................................................................... 464.6.3 调整算子................................................................................................................................................................... 474.6.4 配置流程宏............................................................................................................................................................... 47

5 算子帮助......................................................................................................................................... 495.1 数据源.......................................................................................................................................................................... 495.1.1 读取模型................................................................................................................................................................... 495.1.2 读取 Hive 表............................................................................................................................................................. 49



iii

5.1.3 读取 HDFS 文件....................................................................................................................................................... 515.2 数据输出...................................................................................................................................................................... 545.2.1 输出 HDFS 文件....................................................................................................................................................... 545.2.2 输出模型................................................................................................................................................................... 555.2.3 输出 Hive 表............................................................................................................................................................. 565.3 记录操作...................................................................................................................................................................... 585.3.1 聚合........................................................................................................................................................................... 585.3.2 删除重复行............................................................................................................................................................... 615.3.3 记录过滤................................................................................................................................................................... 625.3.4 表连接....................................................................................................................................................................... 645.3.5 抽样........................................................................................................................................................................... 675.3.6 排序........................................................................................................................................................................... 695.3.7 分割数据集............................................................................................................................................................... 705.3.8 合并........................................................................................................................................................................... 735.4 字段操作...................................................................................................................................................................... 745.4.1 相关性选择............................................................................................................................................................... 745.4.2 转换........................................................................................................................................................................... 765.4.3 离散化....................................................................................................................................................................... 785.4.4 二值化....................................................................................................................................................................... 815.4.5 特征生成................................................................................................................................................................... 845.4.6 规范化....................................................................................................................................................................... 865.4.7 重命名....................................................................................................................................................................... 905.4.8 替换........................................................................................................................................................................... 925.4.9 字段选择................................................................................................................................................................... 955.4.10 设置元数据............................................................................................................................................................. 975.4.11 时序抽取............................................................................................................................................................... 1015.4.12 重建....................................................................................................................................................................... 1035.4.13 元数据................................................................................................................................................................... 1075.5 分类............................................................................................................................................................................ 1085.5.1 逻辑回归................................................................................................................................................................. 1085.5.2 随机森林..................................................................................................................................................................1115.6 聚类............................................................................................................................................................................ 1135.6.1 K-均值..................................................................................................................................................................... 1135.7 评估............................................................................................................................................................................ 1145.7.1 应用模型................................................................................................................................................................. 1145.7.2 计算分类指标......................................................................................................................................................... 1155.8 回归............................................................................................................................................................................ 1185.8.1 线性回归................................................................................................................................................................. 118

6 常见问题....................................................................................................................................... 1206.1 机器学习服务是什么？............................................................................................................................................ 1206.2 机器学习服务可以做什么？.................................................................................................................................... 1206.3 机器学习服务的优势有哪些？................................................................................................................................ 120



iv

6.4 如何使用机器学习服务？........................................................................................................................................ 1216.5 如何访问机器学习服务实例工作界面？................................................................................................................ 1216.6 如何准备机器学习服务的数据源？........................................................................................................................ 1216.7 机器学习服务支持哪些格式的数据源？................................................................................................................ 1216.8 机器学习服务使用哪些安全防护？........................................................................................................................ 1216.9 是否支持实例扩容？................................................................................................................................................ 1216.10 无法成功创建机器学习服务实例时怎么处理？.................................................................................................. 1226.11 无法访问机器学习服务实例时怎么处理？.......................................................................................................... 122

A 修订记录...................................................................................................................................... 123



v

1 简介

1.1 机器学习服务简介

机器学习服务，即Machine Learning Service，简称MLS，是一项数据挖掘分析平台服务，旨在帮助用户通过机器学习技术发现已有数据中的规律，从而创建机器学习模型，并基于机器学习模型处理新的数据，为业务应用生成预测结果。

机器学习服务可降低机器学习使用门槛，提供可视化的操作界面来编排机器学习模型的训练、评估和预测过程，无缝衔接数据分析和预测应用，降低机器学习模型的生命周期管理难度，为用户的数据挖掘分析业务提供易用、高效、高性能的平台服务。

1.2 应用场景

机器学习服务应用于海量数据挖掘分析场景。

l 市场分析

商场从顾客消费记录中找出某类顾客群的共有特征（兴趣、收入水平和消费习惯等），分析出什么样的顾客买什么产品，从而调整市场策略。

l 定向推荐

银行从客户的个人财务状况信息中分析客户特征，定向推荐合适的产品（贷款项目、理财产品），以小代价获取大收益。

l 欺骗检测

保险公司分析投保人的历史行为数据，建立欺骗行为模型，识别出假造事故骗取保险赔偿的投保人。

1.3 与其他云服务的关系

与统一身份认证服务的关系

机器学习服务使用统一身份认证服务（Identity and Access Management，简称IAM）实现认证功能。IAM的更多信息请参见《统一身份认证服务用户指南》。

机器学习服务用户指南 1 简介


1

与弹性云服务器的关系

机器学习服务使用弹性云服务器（Elastic Cloud Server，简称ECS）作为机器学习服务实例的节点，每个弹性云服务器是机器学习服务实例中的一个节点。ECS的更多信息请参见《弹性云服务器用户指南》。

与云硬盘的关系

机器学习服务使用云硬盘（Elastic Volume Service，简称EVS）作为节点的存储设备，每个节点默认使用两个云硬盘。EVS的更多信息请参见《云硬盘用户指南》。

与虚拟私有云的关系

机器学习服务使用虚拟私有云（Virtual Private Cloud，简称VPC）为集群提供网络拓扑，实现多个不同集群互相隔离并控制访问。VPC的更多信息请参见《虚拟私有云用户指南》。

与对象存储服务的有关系

机器学习服务使用对象存储服务（Object Storage Service，简称OBS）存储集群数据的备份和快照，实现安全、高可靠和低成本的存储需求。OBS的更多信息请参见《对象存储服务用户指南》。

与 MapReduce 服务的关系

机器学习服务依赖MapReduce服务（MapReduce Service，简称MRS）提供计算资源，并从MapReduce服务下载HDFS、Yarn、Hive、Spark客户端配置信息。MRS的更多信息请参见《MapReduce服务用户指南》。

与云监控服务的关系

机器学习服务使用云监控服务（Cloud Eye，简称CES）监控集群中的多项性能指标，从而集中高效地呈现状态信息。CES支持发送自定义告警，用户可第一时间获取异常通知。CES的更多信息请参见《云监控服务用户指南》。

1.4 常用概念

1.4.1 MLS 的管理概念

MLS 实例

每个机器学习服务实例，即MLS实例，由两台弹性云服务器组成，构成主备模式。机器学习服务以MLS实例的方式提供给用户，用户可以同时创建多个MLS实例，并分别管理和访问每个MLS实例。

服务地址

每个MLS实例都有其唯一的访问地址，用户通过该地址可以访问MLS实例的工作界面。



2

算子

算子是一种逻辑运行单元。机器学习服务将各种数据加载、数据预处理、机器学习算法等处理逻辑封装成不同的逻辑运行单元，以便灵活编排。

工作流

工作流是算子的静态组合。用户在MLS实例的工作界面通过拖拽和连接的方式组合不同的算子，来形成一个比单一算子更复杂的运行逻辑定义，即工作流。

资源模板

资源模板是计算资源的配置模板。用户在MLS实例的工作界面可以创建资源模板，并分配给需要的项目。

项目

项目用于组织用户定义的信息资源。用户在MLS实例的工作界面可以通过创建不同项目来管理自己定义的工作流、资源模板等信息。

1.4.2 MLS 的算法概念

算法

算法是指一系列规则和运算公式。将这些规则和运算公式作用到数据集上，能够得到一个分析结果，通常就是一个模型。

模型

模型是指算法作用到数据之后的输出结果，通常的形式为一系列的逻辑表达。

l 模型构建

模型构建是指选择数据和算法，执行算法生成模型的过程。

l 模型可视

是指将模型信息以图形化方式展示。

l 模型评估

模型通过准确率，召回率等指标进行评价，而对这些指标的求解称为模型评估。

l 模型应用

将模型作用到一份数据上的各步骤作为计算任务，下发到系统中执行的过程，称为模型应用。

l 模型预测

将已有的模型作用到数据上，针对每一条样本数据给出其对应的结果的过程。

1.5 功能介绍



3

1.5.1 拖拽式操作

拖拽式操作功能提供可视化的工作流的设计和运行调试能力。用户可以在MLS实例的工作界面通过拖拽和连接的方式组合不同的算子，创建工作流，进行数据处理、模型训练、评估和预测，并以合适的图表将结果可视化输出。

1.5.2 丰富的功能算子

机器学习服务集成丰富的功能算子，支持用户完成数据处理、模型训练、评估和预测的工作流设计和调试。

表 1-1 机器学习服务的算子一览

算子分类算子功能

数据源读取模型将保存在文件系统中（例如HDFS）的模型导入工作流中。

读取Hive表从Hive服务器中选择表数据供其他算子使用。

读取HDFS文件从分布式文件系统（HDFS）中导入数据文件。

数据输出输出HDFS文件将当前工作流的运行结果存储到分布式文件系统（HDFS）中。

输出模型将用户自定义的模型保存到文件系统中（例如HDFS），方便后续的使用。

输出Hive表将结果保存为Hive表，表可以是普通表也可以是分区表。

记录操作聚合根据业务需要对数据进行各种聚合运算，包括求均值、大值、小值、方差等。

删除重复行删除数据集中的重复行（假如有两行相同，保留其中一行）。

记录过滤根据用户给定的条件，对输入数据进行过滤。

表连接用特定的方式将两个数据集连接在一起。

抽样根据需要，从输入数据集中随机抽取出指定行数或指定百分比的样本数据集。

排序对数据进行排序，支持降序和升序。

分割数据集根据业务需要，将输入的数据集依据百分比或者某些设定的条件拆分成两个数据集。

合并将两个数据集合并成一个数据集，要求输入的两个数据集包含相同的列数，且对应列的数据类型和度量类型相同。

字段操作相关性选择选取指定数量的重要的特征。

转换将输入数据集的某一个特征的数据进行转换。



4

算子分类算子功能

离散化离散化连续数据，即把连续的一系列值离散到几个类别中。

二值化将Nominal类型的数据转换成二值化形式。

特征生成在数据集中生成任意可行的新属性字段，对现有数据的某个属性操作，如两个属性乘积等，允许用户自定义生成属性名称，并将生成的新属性字段添加到原数据集中。

规范化对一个特征或多个特征在指定范围内进行标准化处理。

重命名修改一个或多个属性名称。

替换对数据中指定属性名满足条件的内容进行替换。

字段选择从输入数据集中选取指定属性名的数据。

设置元数据设置元数据，可以转换数据类型，设置属性的角色和输出特性。

时序抽取对时间序列数据进行过滤。

重建将输入的行列式数据集，按照指定的规则进行转置，生成新的行列式数据集。

元数据用于设置元数据，为后续的模型训练和应用做必要的准备。

分类逻辑回归一种基于线性模型的分类算法，它通过Logistic函数将输入归一化到“[0,1]”区间，即概率区间。

随机森林用随机的方式建立一个有很多决策树的森林，每一棵决策树之间是没有关联，当一个新的样本输入时，就让森林中的每一棵决策树分别进行判断，看这个样本对应哪一类（分类）或哪一个值（回归）。对于分类问题，哪一类被选择多，就预测这个样本为那一类；对于回归问题，取所有树的预测值的平均值。

聚类 K-均值用K-均值算法产生聚类模型，用户在使用时需要指定聚类个数。K-均值算法是基于距离的算法，将所有数据归类到其邻近的中心。

评估应用模型使用已生成的模型对数据进行预测，支持回归模型、分类模型和聚类模型。

计算分类指标对二分类的预测结果进行评估。

回归线性回归利用数理统计中的回归分析，来确定两种或两种以上变数间相互依赖的定量关系。



5

1.6 访问和使用

1.6.1 如何访问

MLS提供了Web化的服务管理平台，即管理控制台。用户在注册后，可直接登录管理控制台，从主页选择“机器学习服务”。

1.6.2 如何使用

机器学习服务的基本使用流程如图1-1所示：

图 1-1 MLS 基本使用流程

用户通过访问机器学习服务控制台，可以创建并管理机器学习服务实例，在机器学习服务实例可视化管理界面，创建并管理项目，在项目中创建并编辑工作流，进行数据分析业务。

1.6.3 约束限制

l 只支持“中国华北区”。

l MLS依赖于MRS提供计算和存储资源，在创建MLS实例之前必须已有MRS集群，如没有，请申请一个MRS集群。

l 用户创建的MLS实例必须和MRS集群在同一个VPC子网和安全组内。

l MLS实例创建好以后不支持修改规格，如果需要使用更高规格的节点，请重新创建一个MLS实例。

1.6.4 计费标准

现阶段服务处于公测期，各种MLS实例规格的总费用均为零，但机器学习服务所依赖的其他云服务需要收费，请见：http://support.hwclouds.com/pro_price/。



6

2 入门

2.1 概述机器学习服务以MLS实例的方式提供给用户。在MLS实例的工作界面中，用户可以查看并管理项目、数据和资源模板，设计数据挖掘分析工作流，开发解决方案。

使用机器学习服务，首先要创建MLS实例，然后访问MLS实例的工作界面，创建MLS数据挖掘方案，如图2-1所示。

图 2-1 MLS 使用流程

2.2 创建 MLS 实例

2.2.1 创建虚拟私有云和安全组

操作场景

虚拟私有云可为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境。

安全组可将虚拟私有云中的弹性云服务器划分成不同的安全域，以提升弹性云服务器访问的安全性。

在使用MLS之前，需创建一个虚拟私有云和安全组。

操作步骤

步骤1 登录公有云管理控制台。

步骤2 单击，选择“虚拟私有云”。

步骤3 在“总览”页面，单击“申请虚拟私有云”。

机器学习服务用户指南 2 入门


7

填写以下参数配置样例，具体请参见“虚拟私有云 > 用户指南 > 管理 > 创建虚拟私有云基本信息及默认子网”。

表 2-1 VPC 配置样例

参数名样例值

名称 mls_net

VPC网段 192.168.0.0/16

可用分区可用区1

名称 subnet_mls

子网网段 192.168.0.0/24

网关 192.168.0.1

DHCP 启用

步骤4 阅读并勾选服务协议后，单击“立即申请”。

步骤5 待页面跳转至“虚拟私有云”页面，选择“安全组 > 创建安全组”。

步骤6 在“创建安全组”下拉区域，填写以下参数配置样例，具体请参见“虚拟私有云 > 用户指南 > 管理 > 创建安全组基本信息”。

表 2-2 安全组配置样例

参数名样例值

名称 sg-mls

步骤7 单击“确定”。

----结束

2.2.2 创建 MRS 集群

操作场景

MLS依赖MRS提供计算和存储资源，在使用MLS之前，需创建一个MRS集群。

操作步骤

步骤1 单击，选择“MapReduce服务”，打开MRS控制台页面。

步骤2 单击“申请集群”，进入“集群配置”页面，选择“按需付费”。

说明

创建集群时需要注意配额提醒。当资源配额不足时，建议按照提示申请足够的资源，再创建集群。



8

填写以下参数配置样例，具体请参见“MapReduce服务 > 用户指南 > 集群操作指导 >创建集群”。

表 2-3 MRS 集群配置样例

参数名样例值

集群名称 mrs-mls

可用区域 az1.dc1

VPC mls_net

子网 subnet_mls

集群节点 l 实例规格：Master和Core节点都选择“Bigdata_8核32G_MapReduce服务”。

l 节点数量：Master节点数量目前固定为2，Core节点数量配置为3。

存储空间选择“普通I/O”，大小为100GB。

密钥对从下拉框中选择密钥对，如果已获取私钥文件，请勾选“我确认已获取密钥对中的私钥文件SSHkey-bba1.pem，否则无法登录弹性云服务器”。如果没有创建密钥对，请单击“查看密钥对”创建或导入密钥，然后再获取私钥文件。

版本选择 MRS 1.2

组件选择勾选Spark、HBase和Hive组件。

步骤3 单击“立即申请”。

步骤4 确认集群规格信息，单击“提交订单”，完成集群的创建。

集群创建需要时间，所创集群的初始状态为“启动中”，创建成功后状态更新为“运行中”，请您耐心等待。

----结束

2.2.3 创建 MLS 实例

操作场景

已经成功创建虚拟私有云和MRS集群，请根据以下指导创建一个MLS实例。

操作步骤

步骤1 单击，选择“机器学习服务”，默认显示“MLS实例管理”。

步骤2 单击“创建MLS实例”，打开服务选型页面。

步骤3 填写以下参数配置样例。



9

表 2-4 开始创建实例的配置样例

参数名样例值

实例名称 mls-demo

MLS软件版本 1.0.0

性能规格 8核32G

存储空间 100GB

可用分区 az1.dc1

虚拟私有云 mls_net

子网 subnet_mls

MRS集群 mrs-mls

说明

l 创建的MLS实例必须和MRS集群在同一个VPC子网和安全组内。

l MLS实例的各配置参数详情参见创建MLS实例。

步骤4 单击“立即申请”，进入“规格确认”页面。

步骤5 阅读并勾选“我已阅读并同意《公测免费使用服务条款协议》”。


实例创建需要时间，所创实例的初始状态为“创建中”，请等待一段时间。创建成功后状态更新为“服务中”，用户可以开始使用实例。

----结束

2.3 访问 MLS 实例的工作界面

操作场景

当MLS实例的运行状态为“服务中”时，用户即可访问MLS实例的工作界面。

操作步骤

步骤1 单击，选择“机器学习服务”，进入“MLS实例管理”界面。

步骤2 单击目标实例所在行的“访问”，进入MLS实例的工作界面首页。

MLS实例的工作界面部分介绍如表2-5所示。



10

表 2-5 MLS 实例的工作界面

名称描述

主页可以直接显示MLS实例中的数据建模项目的概况。

项目可以查看添加到MLS实例中的项目。

数据可以查看添加到MLS实例中的文件信息（HDFS、Hive）。

设置可以创建并查看资源模板。

----结束

2.4 创建 MLS 数据挖掘方案

2.4.1 分析业务

本章节将通过一个示例演练，介绍机器学习服务的业务操作，探讨在机器学习工作流中开发解决方案的过程。

问题描述

银行中常见一种业务：根据客户特征（年龄、工作类型、婚姻状况、文化程度、是否有房贷和是否有个人贷款），预测客户是否愿意办理定期存款业务。

数据来源

本次演练的数据来自UCI的Machine Learning Repository，地址为https://archive.ics.uci.edu/ml/datasets/Bank+Marketing。

数据理解

首先，需要看一下表2-6中该问题的数据结构。

l 特征

表2-6中的每一列代表数据集的一个特征属性，“Age”到“Loan”这6个特征属性依次代表：年龄、工作类型、婚姻状况、文化程度、是否有房贷和是否有个人贷款，特征属性简称为特征。

l 标签

表2-6中的“Label”列代表办理定期存款业务这个标签属性，标签属性简称为标签。

l 样本

表2-6中的每一行数据代表一个样本。



11

https://archive.ics.uci.edu/ml/datasets/Bank+Marketing

https://archive.ics.uci.edu/ml/datasets/Bank+Marketing

表 2-6 部分样本数据

年龄

Age工作类型

Job婚姻状况

Marital文化程度

Education

房贷

Housing贷款

Loan标签

Label

58 management married tertiary yes no no

44 technician single secondary yes no no

33 entrepreneur married secondary yes yes no

47 blue-collar married unknown yes no no

33 unknown single unknown no no no

35 management married tertiary yes no no

28 management single tertiary yes yes no

解决方案

通过问题描述可知客户办理定期存款只有“是”、“否”两种可能，因此该问题为分类问题中的二分类问题。二分类问题可以用“逻辑回归”或“随机森林”算法来分析处理：

l 逻辑回归（Logistic Regression）逻辑回归算法是一种常用的二分类算法。它的一般处理步骤如下：

a. 将“样本属于此类”与“样本不属于此类”的概率之比转化成线性函数。

b. 借助极大似然估计对此函数进行参数估计，求得似然函数。

c. 利用梯度下降算法或牛顿法对似然函数大化求解，不断迭代获得原始问题的优解，得到逻辑回归模型。

l 随机森林（Random Forest）随机森林算法是数据挖掘中的一种分类方法，用于产生分类模型或回归模型。它用随机的方式建立一个森林，森林由很多决策树组成，每一棵决策树之间没有关联。得到森林之后，当有一个新的样本输入时，就让森林中的每一棵决策树分别进行判断，看这个样本对应哪一类（分类）或哪一个值（回归）。对于分类问题，哪一类被选择多，就预测这个样本为那一类；对于回归问题，取所有树的预测值的平均值。

通过数据观察，发现已有数据的线性关系不明显，那么用随机森林算法更好。这里的分类问题可以通过MLS创建包含“随机森林”算子的工作流进行分析处理。

通过机器学习服务创建解决方案的典型操作流程如下：

1. 收集和上传数据

2. 创建项目

3. 创建资源模板

4. 关联资源模板到项目

5. 创建工作流

6. 读取数据



12

7. 预处理数据

8. 模型的训练与预测

9. 输出结果与评估模型

10. 输出模型（可选）

2.4.2 收集和上传数据

操作场景

使用机器学习服务前，需要将本地数据文件上传至OBS，再通过MRS将数据从OBS中导入至HDFS，供MLS从HDFS中读取数据。

操作步骤

上传数据至OBS


步骤2 单击，选择“对象存储服务”。

步骤3 单击“创建桶”。

填写以下参数配置样例，具体请参见“对象存储服务 > 用户指南 > 快速入门 > 管理控制台快速入门 > 创建桶”。

表 2-7 “创建桶”样例

参数名样例值

区域选择新建桶所在的区域。

桶名称 obs-mls

步骤4 单击“确定”，创建桶成功。

步骤5 选择桶“obs-mls”，单击，在弹出框中选择待上传的数据文件，确定后，单击“上传”，等待页面提示上传成功。

具体请参见“对象存储服务 > 用户指南 > 快速入门 > 管理控制台快速入门 > 创建桶”。

通过MRS将数据导入HDFS


步骤7 选择集群“mrs-mls”，单击“文件管理 > 导入”。

步骤8 在弹出框中，选择表2-8中的路径。



13

表 2-8 导入路径

路径说明

OBS路径 OBS中待导入的数据文件，例如“s3n://obs-mls/BANK_DATA”。

HDFS路径数据文件导入到HDFS中的路径，例如“/user/omm/mls”。

说明

l OBS路径请以“s3a://”或“s3n://”开头，目录和文件名称可以包含中文、字母和数字，但不能包含空格和;|&>,<'$*?\特殊字符。

l HDFS路径请以“/user/omm/”开头，目录和文件名称可以包含中文、字母和数字，但不能包含空格和;|&>,<'$*?\:特殊字符。

具体请参见“MapReduce服务 > 用户指南 > 集群操作指导 > 管理文件 > 导入数据”。

步骤9 单击“导入”，等待页面提示导入成功。

----结束

2.4.3 创建项目

操作场景

在分类任务启动前，需要创建一个新的项目，作为工作区。

操作步骤

步骤1 登录MLS实例的工作界面，单击“项目”。

步骤2 在“项目”界面单击“创建项目”。

步骤3 在弹出的“创建项目”对话框中，“名称”设置为“bank”，其他参数保持默认。

步骤4 单击“确定”，完成项目的创建。

----结束

2.4.4 创建资源模板

操作场景

使用MLS业务，需要创建资源模板，以指定创建Spark任务时的资源需求，供平台内的建模项目使用，提高计算处理能力。

操作步骤

步骤1 登录MLS实例的工作界面，单击“设置”。

步骤2 在“资源”页面，单击“创建资源模板”，配置资源模板。

步骤3 在弹出的“创建资源模板”对话框中，填写以下参数配置样例。



14

表 2-9 资源模板参数

类别参数名称样例值

属性名称 bankResource

描述 -

基本参数驱动内存大小（MB） 1024

执行器数量 2

执行器CPU核数 4

执行器内存大小（MB） 1024

队列名称 -

高级参数（可选）变量 -

说明

资源模板各参数详情参见创建资源模板。

步骤4 点击“确定”，完成资源模板的创建。

----结束

2.4.5 关联资源模板到项目

操作场景

创建项目后，需要把创建的项目和资源模板相关联，供项目中的数据挖掘分析工作流使用。

操作步骤


步骤2 单击bank项目，进入此项目页面。

步骤3 在“概述”页签中，单击页面右侧的“设置资源”。

步骤4 在弹出的“设置资源”对话框的“名称”中，指定此项目使用的资源模板为“bankResource”。

步骤5 单击“确定”，成功关联资源模板到项目。

----结束

2.4.6 创建工作流

操作场景

已成功创建项目“bank”并关联资源模板“bankResource”后，为将机器学习过程具象化，可在项目中建立工作流。



15

一个典型的机器学习过程一般包含：源数据，数据预处理，指标提取，模型训练，预测等步骤。MLS的工作流将各算子组合，用类似流水线式工作的方式显示。

操作步骤


步骤2 单击“bank”项目，进入此项目页面。

步骤3 单击“工作流文件 > 创建”。

步骤4 在弹出的“创建工作流”对话框中，工作流的名称“名称”设置为“BankModel”。

步骤5 单击“确定”，完成工作流的创建。

工作流创建完成后，系统自动进入该工作流的工作流编排界面。

----结束

2.4.7 读取数据

操作场景

已成功创建“BankModel”工作流并进入该工作流的工作流编排界面，要建立数据分析模型，首先需要设置数据源算子读取数据。

操作步骤

步骤1 进入“BankModel”工作流的工作流编排界面，将“数据源”下拉目录中的“读取HDFS文件”算子拖拽至画布中。

步骤2 双击该算子，按照表2-10配置参数，如图2-2所示。

表 2-10 “读取 HDFS 文件”算子参数配置样例

参数名称样例值

数据格式 CSV

数据文件 “/user/omm/mls/BANK_DATA”

导入元数据勾选

元数据文件 “/user/omm/mls/BANK.desc”

处理异常值 Replace with null

保存异常记录不勾选



16

图 2-2 “读取 HDFS 文件”算子参数配置


----结束

2.4.8 预处理数据

操作场景

读取数据后，需要对数据进行预处理。

l 设置数据的特征和标签。数据与处理需要划分数据样本中哪些列为特征，哪一列为标签，关于数据中列和标签的信息，详见数据理解。

l 将数据集拆分为训练集和测试集。为了评价分类模型的性能，需要将数据集拆分成训练集和测试集。

– 训练集用于训练分类模型。

– 测试集用于评测分类模型的性能。

该任务指导用户使用“设置元数据”算子和“分割数据集”算子进行数据预处理。

操作步骤

步骤1 进入“BankModel”工作流的工作流编排界面，将“字段操作”下拉目录中的“设置元数据”算子拖拽至画布中，和“读取HDFS文件”算子连接。

步骤2 设置数据的特征和标签。

双击“设置元数据”算子，在弹出框中单击“设置 > 增加一组参数”，按照表2-11配置参数。

表 2-11 “设置元数据”算子参数配置样例


字段 label

类型 -

角色 Target

度量指标 -



17

步骤3 单击“确定”保存。

步骤4 将“记录操作”下拉目录中的“分割数据集”算子拖拽到画布中，将“设置元数据”和“分割数据集”算子连接。

步骤5 拆分训练集和测试集。

双击“分割数据集”算子，按照表2-12配置参数，如图2-3所示。

表 2-12 “分割数据集”算子参数配置样例


分裂方式比例

子数据集1的比例 66

随机种子 1

即将输入数据中的66%设置为训练集，34%用于测试集，随机种子为1。

图 2-3 预处理数据

----结束

2.4.9 模型的训练与预测

操作场景

预处理数据后，进入模型的训练与预测环节。这个过程主要使用3个算子：“随机森林”算子、“应用模型”算子和“计算分类指标”算子。

l “随机森林”算子是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。



18

说明

随机森林算法是通过训练多个决策树，生成模型，然后综合利用多个决策树的分类结果进行投票，从而实现分类。随机森林算法需要两个主要参数：构建的决策树的个数和在决策树的每个节点进行分裂时需要考虑的输入特征的个数。

l “应用模型”算子是用分类模型对测试数据进行预测。

l “计算分类指标”算子根据预测结果计算分类性能指标。

操作步骤

步骤1 进入“BankModel”工作流的工作流编排界面，将以下算子拖拽至画布中：

l “分类”下拉目录中的“随机森林”算子。

l “评估”下拉目录中的“应用模型”算子。

l “评估”下拉目录中的“计算分类指标”算子。

图 2-4 模型的训练与预测算子编排

步骤2 如图2-4所示，从“分割数据集”算子中拉出两条线：

l 一条连接“随机森林”算子，选择输出数据1，即样本的训练集，单击“确定”保存。

l 另一条连接“应用模型”算子，选择输出数据2，即样本的测试集，单击“确定”保存。

说明

训练集和测试集的规模大小是在“分割数据集”的参数中设置，详情参见预处理数据。

步骤3 如图2-4所示，分别连接“随机森林”算子和“应用模型”算子，“应用模型”算子和“计算分类指标”算子。

步骤4 双击“随机森林”算子，按照表2-13配置参数，如图2-4所示。



19

表 2-13 “随机森林”算子参数配置样例


学习类型分类

树的数目 10

大树深度 4

大分箱数 100

不纯度 Gini

特征子集选取策略 Auto

随机种子 1

说明

l “随机森林”的参数中“学习类型”可选值为“分类”和“回归”，分别代表分类树和回归树。该问题为分类问题，选择“学习类型”为“分类”。当选择“分类”时，类别的个数由前面选择的Target列枚举值的个数决定。

l “不纯度”可选值有“Gini”和“Entropy”，分别代表不纯度值和熵值。类别分布越平均，Gini值越大，类分布越不均匀，Gini值越小。熵值在0～1之间分布，熵越小说明数据集越纯，此处选择纯度为“Gini”。

l “特征策略”指在树节点分裂前，需要选择一个特征子集，然后算法从这个子集中选择一个最重要的特征进行分裂。可选值有“Auto”、“All”、“Sqrt”、“Log2”和“Onethird”，“Auto”是让算法自己决定该子集的大小，“All”是选择所有特征，此处“特征策略”选择为“Auto”。

l 本例中为避免生成的模型不同，将“随机种子”设置为1，其他参数默认。


步骤6 双击“应用模型”算子，按照表2-14配置参数。

表 2-14 “应用模型”算子参数配置样例


预测类型分类

分类阈值 0.5

说明

l “应用模型”算子的参数的“预测类型”选择“分类”，“分类阈值”选为0.5。即对测试样本的预测值如果大于0.5，则认为是正样本，否则为负样本。

l 该算子的输入是模型和数据，所以输入的模型为随机森林输出的模型，输入的数据为34%的验证数据。参数设置：预测类型选择“分类”，其他参数默认。


步骤8 双击“计算分类指标”算子，按照表2-15配置参数。



20

表 2-15 “计算分类指标”算子参数配置样例


分类类型二元分类

指标数据聚合点个数 2000

输出AUC数据勾选

输出ROC曲线数据勾选

输出PR曲线数据勾选

输出精确率数据勾选

输出召回率数据勾选

输出F1测量数据勾选

输出混淆矩阵数据不勾选


----结束

2.4.10 输出结果与评估模型

操作场景

已完成模型的训练和预测过程。如果想看分类模型的性能评测结果，可以将结果输出到HDFS上。

本次演练将输出AUC曲线、精确率和召回率3个指标来评估模型。

l ROC曲线指受试者工作特征曲线，是反映敏感性和特异性连续变量的综合指标。AUC是ROC曲线下的面积，介于0.1和1之间。

l 精确率是检索出的相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率。

l 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。

对每个指标建立一个新的“输出HDFS文件”算子。

操作步骤

步骤1 进入“BankModel”工作流的工作流编排界面，将三个“输出HDFS文件”算子拖拽至画布中，各端口分别设置为：

l “AUC”

l “精确率”

l “召回率”

如图2-5所示。



21

图 2-5 “输出 HDFS 文件”算子设置

步骤2 配置各“输出HDFS文件”参数：

1. 按照表2-16配置AUC曲线指标的“输出HDFS文件”参数。

表 2-16 AUC 曲线指标的“输出 HDFS 文件”参数配置样例


文件目录 “/user/bank/output/”

文件名 AUC

文件格式 CSV

字段分隔符 “,”

允许覆盖勾选

2. 单击“确定”。

3. 按照表2-17配置精确率曲线指标的“输出HDFS文件”参数。

表 2-17 精确率曲线指标的“输出 HDFS 文件”参数配置样例



文件名 Precision

文件格式 CSV



22



允许覆盖勾选


5. 按照表2-18配置召回率曲线指标的“输出HDFS文件”参数。

表 2-18 召回率曲线指标的“输出 HDFS 文件”参数配置样例



文件名 Recall

文件格式 CSV


允许覆盖勾选


步骤3 单击工作流编排界面右上角“保存”按钮，保存建立的模型。

步骤4 单击工作流编排界面右上角“运行”按钮，运行工作流。

说明

工作流在运行过程中，当前执行的算子为闪烁状态，已经执行的算子为绿色，未执行的算子为灰色。

步骤5 工作流运行完毕后，单击各“输出HDFS文件”算子，选择运行结果即可看到各分类性能的评价指标值。



23

图 2-6 各分类性能的评价指标值

1. 如图2-6所示，AUC指标的值详见表2-19。

表 2-19 AUC 指标的值

PR曲线下方的面积 ROC曲线下方的面积

0.5220767326479612 0.9421892150965534

2. 如图2-6所示，精确率指标的值详见表2-20。

表 2-20 精确率指标的值

分类阈值精确率

1.0 0.8857236842105263

0.9 0.884340821271858

0.8 0.8836646612607899

0.7 0.8826943140323422



24

分类阈值精确率

0.6 0.8817225253312548

0.5 0.8811157131762879

0.4 0.8810093820769977

3. 如图2-6所示，召回率指标的值详见表2-21。

表 2-21 召回率指标的值

分类阈值召回率

1.0 0.9887632197414806

0.9 0.9917009400705052

0.8 0.9924353701527615

0.7 0.9941980023501763

0.6 0.9969888366627497

0.5 0.9999265569917744

0.4 1.0

说明

要查看预测结果的每一列分别代表什么含义，可查看图2-6中各输出结果的meta.desc文件。

----结束

2.4.11 输出模型（可选）

操作场景

当需要在一个新的工作流中读取该模型，用新的测试数据进行预测时，执行此操作。

操作步骤

步骤1 进入“BankModel”工作流的工作流编排界面，将“数据输出”下拉目录中的“输出模型”算子拖入画布，与“随机森林”算子连接，如图2-7所示。



25

图 2-7 输出模型

步骤2 双击“输出模型”算子，按照表2-22配置参数。

表 2-22 “输出模型”算子参数配置样例


模型路径 “/user/bank/output/”

模型文件名 RandomForest_bank

允许覆盖勾选

步骤3 得到分类模型后，可建立图2-8中的工作流进行预测。

其中，“读取模型”算子读取建立的模型文件。

图 2-8 读取模型到工作流

----结束



26

3 MLS 实例生命周期管理

3.1 访问 MLS 管理控制台

操作场景

用户需要进入MLS管理控制台，对MLS实例进行运维管理。

操作步骤


步骤2 查看所有MLS实例的状态信息。

实例状态说明如表3-1所示。

表 3-1 实例状态说明

状态说明

“服务中” 表示实例工作正常。

“故障” 表示实例无法提供服务。

“处理中” 表示实例已设置成脱机状态并在处理故障。

步骤3 查看所有MLS实例的存储容量信息。

实例存储容量信息分类如表3-2所示。

表 3-2 实例存储容量状态

状态说明

“空闲” 表示实例可用磁盘空间小于50%。

“警告” 表示实例可用磁盘空间大于等于50%且小于80%。

机器学习服务用户指南 3 MLS 实例生命周期管理


27

状态说明

“危险” 表示实例可用磁盘空间大于等于80%。

“异常” 表示实例可用磁盘空间信息无法获取。

----结束

3.2 创建 MLS 实例

操作场景

如果用户需要在公有云的环境中使用机器学习服务，则可以申请一个MLS服务实例来执行数据分析任务，请参考本章节创建实例。

前提条件

l 评估集群节点规格

根据业务需求，选择能够支撑业务应用的弹性云服务器规格。规格主要包含：CPU和内存。

l 规划数据存储要求

根据业务数据场景，选择保存数据的磁盘类型和磁盘存储空间大小。

l 设计网络访问拓扑

根据业务应用响应时间要求，选择合适的可用分区和网络配置。

操作步骤


步骤2 在“MLS实例管理”页面，单击“创建MLS实例”。

步骤3 在“服务选型”页面，填选“实例规格”、“网络”和“计算服务”。

表 3-3 实例规格参数说明

参数名参数解释样例值

实例名称设置MLS实例的名称。

只能由字母、数字或中划线组成，并且长度为4～64个字符，必须以字母开头。

默认名称为mls-xxxx，xxxx为字母和数字的四位随机组合数，系统自动组合。

mls-demo

MLS软件版本选择集群中安装的MLS软件版本。 1.0.0

性能规格 8核32GBvCPU个数：8内存大小：32GB

8核32G



28


存储空间存储空间支持100GB。 100GB

表 3-4 网络参数说明


可用分区选择实例节点实际工作区域。

可用分区表示在公有云的一个数据中心地域下，电力、网络互相隔离的物理区域。可用分区之间内网互通，不同可用分区之间物理隔离。

az1.dc1

虚拟私有云指定MLS实例所在的虚拟专用网络，实现不同业务的网络隔离。

首次创建MLS实例时，如果未配置过VPC，可以单击“查看虚拟私有云”打开VPC管理控制台，并新创建一个满足需要的VPC，具体请参见《虚拟私有云用户指南》。

vpc-mls

子网指定虚拟私有云的一个子网。

MLS实例在子网实现与其他网络隔离，并独享所有网络资源，以提高网络安全，子网在可用分区内才会生效。

subnet-mls

表 3-5 计算服务参数说明


MRS集群指定MLS实例所在的MRS集群。

首次创建MLS实例时，如果未创建过MRS集群，可以单击“创建MRS”打开MRS服务管理控制台，并新申请一个满足需要的MRS集群，具体请参见《MapReduce服务用户指南》。

mrs-mls

步骤4 单击“立即申请”，进入“规格确认”页面。

步骤5 阅读并勾选“我已阅读并同意《公测免费使用服务条款协议》”。


实例创建需要时间，所创实例的初始状态为“创建中”，请等待一段时间。创建成功后状态更新为“服务中”，用户可以开始使用实例。

----结束



29

3.3 查看 MLS 实例基本信息

操作场景

如果用户需要查看已经创建的MLS实例信息，请参考以下指导查看。

操作步骤


步骤2 在“MLS实例管理”页面，单击目标实例的名称。

步骤3 查看目标实例的基本信息。

----结束

3.4 删除 MLS 实例

操作场景

用户需要时，可以在“MLS实例管理”页面删除MLS实例。

操作步骤


步骤2 在指定实例的“操作”列，单击“更多 > 删除”。

步骤3 在弹出的“删除实例”对话框中单击“确认”，删除MLS实例。

注意

删除MLS实例的操作无法恢复，请谨慎删除。

----结束

3.5 重启 MLS 实例

操作场景

用户需要时，可以在“MLS实例管理”页面重启MLS实例。

操作步骤




30

步骤2 在指定实例的“操作”列，单击“重启”。

步骤3 在弹出的“重启实例”对话框中单击“确认”，开始重启MLS实例。

注意

重启MLS实例将导致正在运行的分析任务中断和失败，请确认重启服务是否是必须的。

----结束

3.6 查看监控信息

操作场景

用户需要时，可以在“MLS实例管理”页面查看MLS实例的监控信息。

操作步骤


步骤2 在指定实例的“操作”列，单击“更多 > 监控信息”，打开CES管理控制台。

CES支持查看机器学习服务中MLS实例的主节点监控指标。用户可以根据需要，选择指定的监控指标名称以及时间范围，从而显示监控指标的性能曲线。

MLS实例的相关指标，如表3-6所示。

表 3-6 机器学习服务支持的监控指标

指标名称解释取值范围测量对象

CPU使用率该指标用于统计测量对象的CPU使用率，以百分比为单位。

0%～100% MLS实例

磁盘使用率该指标用于统计测量对象的磁盘使用率，以百分比为单位。

0%～100% MLS实例

内存使用率该指标用于统计测量对象的内存使用率，以百分比为单位。

0%～100% MLS实例

说明

如果用户需要配置监控指标的通知信息，可以配置告警规则，具体请参见“云监控服务 > 用户指南 > 操作指南 > 告警规则管理”。

----结束



31

4 MLS 业务操作

4.1 概述

访问MLS实例的工作界面后，可以在MLS实例的工作界面进行MLS业务操作。

4.2 管理数据

4.2.1 管理数据概述

公共数据

MLS为用户提供公共数据集。用户可以通过OBS客户端访问并下载。

具体请参见“对象存储服务 > 用户指南 > 通过客户端（OBS Browser）使用服务”。

表 4-1 公共数据集

共享位置名称

共享桶名 obs-mls-share

文件夹 dataset

导入数据

MLS与MRS集群无缝配合，可以从MRS集群中的HDFS或Hive组件中直接读取数据。MRS集群的数据源来源于OBS（对象存储服务），并支持将OBS中的数据导入至HDFS中。

用户需要将本地数据上传至OBS系统，通过MRS集群将OBS中的数据导入至HDFS中，在使用MLS时，直接从HDFS中读取数据。

该场景包含以下服务及其概念：

机器学习服务用户指南 4 MLS 业务操作


32

l MLS

数据源文件

– 用户在进行预览数据、数据建模等操作前，需要增加到HDFS或者Hive中的记录数据的实际文件。

– MLS数据挖掘中需要处理的源数据格式要求与具体处理数据的算子算法相关，具体可参考算子帮助。

l MRS

具体请参见“MapReduce服务 > 用户指南 > 集群操作指导 > 管理文件”。

l OBS

具体请参见“对象存储服务 > 用户指南 > 对象存储服务基本知识 > 相关概念”。

4.2.2 上传数据至 OBS

操作场景

使用机器学习服务前，需要将本地数据文件上传至OBS。

操作步骤


步骤2 单击，选择“对象存储服务”。

步骤3 单击“创建桶”。

填写以下参数配置样例，具体请参见“对象存储服务 > 用户指南 > 快速入门 > 管理控制台快速入门 > 创建桶”。

表 4-2 “创建桶”样例

参数名样例值

区域选择新建桶所在的区域。

桶名称 obs-mls

步骤4 单击“确定”，等待页面提示创建桶成功。

步骤5 选择桶“obs-mls”，单击，在弹出框中选择待上传的数据文件，确定后，单击“上传”，等待页面提示上传成功。

具体请参见“对象存储服务 > 用户指南 > 快速入门 > 管理控制台快速入门 > 创建桶”。

----结束



33

4.2.3 导入数据到 HDFS

操作场景

已成功将数据导入OBS并创建MRS集群，需通过MRS将数据从OBS中导入HDFS，供MLS从HDFS中读取数据。

该任务指导用户将数据从OBS导入MLS，并在MLS实例工作界面查看数据。

操作步骤


步骤2 选择目标集群，单击“文件管理 > 导入”。

步骤3 在弹出框中，选择中的路径。

表 4-3 导入路径

路径说明

OBS路径 OBS中待导入的数据文件。

HDFS路径数据文件导入到HDFS中的路径。

说明

l OBS路径请以“s3a://”或“s3n://”开头，目录和文件名称可以包含中文、字母和数字，但不能包含空格和;|&>,<'$*?\特殊字符。

l HDFS路径请以“/user/omm/”开头，目录和文件名称可以包含中文、字母和数字，但不能包含空格和;|&>,<'$*?\:特殊字符。

具体请参见“MapReduce服务 > 用户指南 > 集群操作指导 > 管理文件 > 导入数据”。

步骤4 单击“导入”，等待页面提示导入成功。


步骤6 单击目标实例所在行的“访问”，进入MLS实例的工作界面主页。

步骤7 在“主页”单击“HDFS”，可以通过文件或文件名搜索导入的数据文件，如图4-1所示。



34

图 4-1 在 MLS 实例工作界面查看导入到 HDFS 中的数据

----结束

4.2.4 预览数据

操作场景

用户通过MLS实例的工作界面，可以浏览HDFS或者Hive组件中的数据，在进行数据处理前先进行基本的数据探索。

操作步骤

步骤1 访问MLS实例的工作界面后，单击“数据”。

步骤2 单击“Hive”或者“HDFS”，查看数据文件。

例如单击“HDFS > operatorData > APM.csv”，即可查看数据文件具体内容，如图4-2所示。



35

图 4-2 查看数据文件

----结束

4.3 管理项目

4.3.1 创建项目

操作场景

MLS支持多人协作，由多用户共同完成一个数据挖掘项目。

该任务指导用户在某数据挖掘任务启动时，创建一个新的项目工作区。

操作步骤

步骤1 访问MLS实例的工作界面后，单击“项目”。

步骤2 在“项目”界面单击“创建项目”。

步骤3 在弹出的“创建项目”对话框中，配置表4-4中的各参数。

表 4-4 “创建项目”参数配置

参数名称说明样例值

名称项目名称，以字母开头，可包括大小写字母、数字或下划线。

Project_1

公开项目勾选，则对其他用户公开此项目。 -

在主页显示此项目

勾选，则在MLS实例的工作界面上显示该项目信息。 -

导入模板勾选，则上传项目模板来创建项目。 -




36

项目创建完成后，为保证项目内工作流正常运行，需要为项目指定资源模板，具体请参考管理资源模板。

----结束

4.3.2 查看项目

操作场景

MLS支持多个数据挖掘项目同时进行。

该任务指导用户在“项目”中查看当前用户所加入的所有项目。

系统管理员可查看所有项目，非系统管理员用户只可以查看自己所加入项目以及对所有用户公开的项目。

操作步骤

步骤1 访问MLS实例的工作界面。

步骤2 单击“项目”，查看所有项目。

l 右上角可以选择显示活动项目或所有项目：

– 选择“显示：活动项目”，只显示处于激活状态的项目。

– 选择“显示：全部项目”，显示所有当前用户可查看的项目。

l 右上角可以选择项目排序方式，如图4-3所示。

图 4-3 查看项目

步骤3 单击项目名称，进入项目操作界面，可以查看当前项目的活动日志、工作流文件等信息。

----结束



37

4.3.3 编辑项目

操作场景

项目Owner可以编辑自己所加入的项目。

该任务指导用户在“项目”中编辑当前用户所加入的项目。

操作步骤



步骤3 单击待编辑项目名称，进入项目操作界面。

步骤4 单击右侧“编辑项目”，在弹出的“编辑项目”对话框中，修改项目的相关信息。

项目相关参数如表4-5所示。

表 4-5 项目参数

参数名称描述

名称项目名称，以字母开头，可包括大小写字母、数字或下划线。

公开勾选，则对其他用户公开此项目。

在主页显示此项目勾选，则在MLS实例的工作界面上显示该项目信息。

概述项目概述。

项目图片项目图片，图片必须为PNG或者JPG格式。

项目状态 l 活动的：激活状态，项目可以状态编辑。

l 已归档的：存档状态，项目处于只读状态。

步骤5 单击“确定”，完成编辑项目。

----结束

4.3.4 导出项目

操作场景

项目Owner可以导出自己所加入的项目。

该任务指导用户在“项目”中导出当前用户所加入的项目。

操作步骤





38

步骤3 选中待导出的项目名称，单击右侧的“导出”，根据浏览器提示将模板文件保存到本地。

----结束

4.3.5 删除项目

操作场景

项目Owner可以删除自己所加入的项目。

该任务指导用户在“项目”中删除当前用户所加入的项目。

操作步骤



步骤3 单击待删除的项目名称，进入项目操作界面。

步骤4 单击右侧“删除项目”。

步骤5 在弹出的“删除项目”对话框中，勾选提示以确认删除项目，单击“确定”。

----结束

4.3.6 增加项目备注信息

操作场景

项目Owner在进行建模分析时，遇到某些问题或想到某些建议的情况下，可以为项目添加备注，便于后期查阅或者共享给其他人员。

操作步骤



步骤3 单击待操作的项目名称，进入项目操作界面。

步骤4 单击右侧“添加备注”，在弹出的“添加备注”对话框中，输入备注内容，单击“确定”。

用户也可对备注进行编辑，单击待编辑备注右上角“操作”，下拉框中的具体操作如表4-6所示。

表 4-6 编辑备注参数说明

参数描述

编辑编辑该备注

删除删除该备注



39

参数描述

评论评论该备注

高亮显示该备注/取消高亮高亮显示该备注/取消高亮显示

步骤5 单击项目名称，在“全部活动”页面即可查看该项目的所有备注，在“高亮”页面查看高亮显示的该项目备注。

----结束

4.4 管理工作流

4.4.1 创建工作流

操作场景

该任务指导用户在数据建模项目中，创建工作流，开始真正的图形化建模。

操作步骤


步骤2 单击待操作项目名称，进入此项目操作界面。

步骤3 单击“工作流文件 > 创建”。

步骤4 在弹出的“创建工作流”对话框中，配置中的各参数。

表 4-7 “创建工作流”参数配置

参数名称说明样例值

名称工作流名称，包含大小写字母、数字或下划线。 workflow_1

导入模板勾选，可上传工作流模板来创建工作流。 -

描述添加对工作流文件的描述。 -

步骤5 单击“确定”，完成工作流的创建。

工作流创建完成后，系统自动进入该工作流的工作流编排界面，算子编排详见编排算子。

----结束

4.4.2 运行工作流

操作场景

创建工作流后，通过运行工作流来按照编排好的顺序对数据进行处理。



40

操作步骤


步骤2 单击待操作项目名称，进入此项目操作界面。

步骤3 在“工作流文件”页面单击待操作工作流名称，进入工作流编排界面。

说明

如果不需要查看工作流的详细运行过程，在“工作流文件”页面选中工作流之后，单击右侧的“运行”即可运行工作流。

步骤4 在工作流编排界面，单击右上角“运行”。

步骤5 页面跳转至运行界面，显示运行进度及运行日志。

----结束

4.4.3 查看工作流运行结果

操作场景

运行工作流后，可以查看结果，包含每个算子运行之后的状态和结果，以及整个工作流运行之后的状态和结果。

操作步骤

步骤1 运行工作流后，通过运行窗口下方的“运行日志”窗口可以查看工作流的运行进度及结果，如图4-4所示。

图 4-4 运行日志

步骤2 工作流运行结束后，单击工作流编排界面的某个算子，在下方“运行结果”窗口可以查看该算子的运行状态和详细输出结果，例如输出结果与评估模型中查看各“输出HDFS文件”运行结果。



41

说明

l 个别算子没有运行结果，具体算子介绍请参考算子帮助。

l 带有建模类算子的工作流，在成功运行后，将生成对应的数据模型。

----结束

4.4.4 工作流的其他操作

操作场景

创建工作流之后，用户在项目操作界面，单击“工作流文件”，可以对工作流进行以下操作，如图4-5所示。

l 运行：运行该工作流。

l 停止：停止正在运行的工作流。

l 导出：导出工作流模板，用于备份或者在其他项目中添加工作流时使用。

l 编辑：编辑该工作流。

l 删除：删除该工作流。

图 4-5 工作流的操作

该操作指导用户在工作流编排界面完成对工作流的运行、停止、导出、编辑和删除操作。

操作步骤

l 运行工作流

a. 选中待操作的工作流。

b. 单击“运行”，等待工作流运行介绍。

如需查看工作流运行详细过程及进度，参见运行工作流。

l 停止工作流


b. 单击“停止”。

工作流被停止后，编排任务中已运行算子的结果仍可查看，参见查看工作流运行结果。

l 导出工作流


b. 单击“导出”。

c. 根据浏览器的提示，将工作流模板保存到本地电脑。



42

l 编辑工作流


b. 单击“编辑”。

c. 在“编辑工作流文件”窗口中，配置工作流的“名称”和“描述”，单击“确定”。

l 删除工作流


b. 单击“删除”。

c. 在弹出的确认对话框中单击“确定”。

4.5 管理资源模板

4.5.1 创建资源模板

操作场景

MLS支持Spark任务的资源配置模板，用户可以在MLS实例的工作界面创建资源模板，供平台内的建模项目使用，提高计算处理能力。

说明

管理员通过本任务创建的只是资源的逻辑配置模板，用来指定创建Spark任务时的资源需求。。

操作步骤

步骤1 访问MLS实例的工作界面后，单击“设置”。

步骤2 在“资源”页面，单击“创建资源模板”。

步骤3 在弹出的“创建资源模板”对话框中，根据实例的物理资源情况输入资源模板相关参数，如表4-8所示。

表 4-8 资源模板参数

类别参数名称描述

属性名称资源模板名称。

描述资源模板描述。

基本参数驱动内存大小（MB）驱动节点内存，必须为整数，范围为512～102400。说明在RedHat操作系统下，该值至少设置为1024。

执行器数量执行器数量，必须为整数，范围为1～102400。

执行器CPU核数执行器CPU核数。



43

类别参数名称描述

执行器内存大小（MB）执行器内存，必须为整数，范围为512～102400。

队列名称 Yarn任务队列名称。

高级参数（可选）变量 l 名称

l 值


创建成功后，用户可通过“资源”界面查看资源模板的激活状态以及内存使用情况。

----结束

4.5.2 使用资源模板

操作场景

资源模板指定了创建Spark任务时的资源需求。该任务指导用户为数据建模项目设置资源模板，设置后运行工作流时便可以按资源模板调用资源进行数据计算处理。

前提条件

系统管理员已创建好资源模板。

操作步骤


步骤2 单击项目名称，进入项目管理界面。

步骤3 单击右上角“设置资源”，在弹出的“设置资源”窗口中，输入要使用的资源模板名称。


----结束

4.5.3 编辑资源模板

操作场景

成功创建资源模板后，用户可以对所创建的资源模板进行编辑操作。

操作步骤


步骤2 在“资源”页面，选中需要操作的资源模板。

步骤3 单击右侧“编辑”，根据集群实际情况修改资源模板参数。



44


----结束

4.5.4 删除资源模板

操作场景

成功创建资源模板后，用户可以对所创建的资源模板进行删除操作。

操作步骤


步骤2 在“资源”页面，选中需要操作的资源模板。

步骤3 单击右侧“删除”，界面弹出“删除资源模板”对话框。


----结束

4.6 编排算子

4.6.1 进入工作流编排界面

操作场景

可以在图形化的工作流编排界面中，拖拽、排列、连接算子来设计工作流，完成MLS数据建模。

该操作指导用户通过编辑工作流的方法进入工作流编排界面。

说明

第一次创建工作流后，系统界面也会自动跳转到工作流编排界面。

操作步骤

步骤1 访问MLS实例的工作界面后，点击“项目”。

步骤2 单击待操作项目名称，进入项目操作界面。

步骤3 在“工作流文件”页面单击待操作工作流名称，进入工作流编排界面。

工作流的编排界面如图4-6所示。



45

图 4-6 工作流编排界面

l “操作单元”中可查询各个算子，各算子功能详见算子帮助。

l 可将算子拖拽入画布中，进行编排连接，组成完整的工作流。

l 在工作流编排界面，可以对工作流进行如下操作：

– 保存：保存该工作流。

– 运行：运行该工作流。

– 停止：停止正在运行的工作流。

– 关闭：关闭该工作流编排页面。

– 更多选项：

n 另存为：将该工作流另存。

n 配置宏：详见配置流程宏。

----结束

4.6.2 操作算子

操作场景

MLS预制了多种算子，可以实现不同的功能，具体功能及参数请参见算子帮助。在工作流编排界面，用户可以将左侧算子列表中需要用到的算子依次拖拽到右侧的画布中，并设置好参数，然后按照设计好的数据处理流程连接算子。

操作步骤

步骤1 进入工作流编排界面。

步骤2 单击某一算子，例如“读取HDFS文件”，将其拖拽到右侧的画布中。

说明

算子种类较多，可以直接在左侧搜索框进行精确查找或者按照分组进行查看。

步骤3 双击该算子，修改算子参数并单击“确定”。



46

步骤4 继续增加算子并设置算子参数，按照设计好的数据处理流程连接算子。

鼠标移至起始算子如“读取HDFS文件”右侧，单击小黑点不放，将箭头拖至下一算子的左侧，出现黑点时，松开鼠标。

说明

部分算子在连接时，需要设置相关的连接参数，请参考算子帮助。

步骤5 重复执行步骤2～步骤4，完成整个工作流的编排，单击“保存”。

----结束

4.6.3 调整算子

操作场景

通过编排算子创建了工作流后，用户可以根据实际业务情况调整算子，进行重命名、删除、修改属性等操作。

操作步骤


步骤2 右键单击选中需要修改的算子，在弹出框中选择操作，如表4-9所示。

表 4-9 算子操作一览

参数描述

复制复制该算子。

编辑算子修改该算子的属性参数，不同算子参数各不相同，请参考算子帮助。

查看元数据查看该算子元数据。

重命名根据实际业务环境修改算子流中各算子的显示名称，便于区分。

删除不再需要该算子时，将其从算子流中删除。

步骤3 调整完算子之后，单击工作流编排界面右上角的“保存”。

保存算子流之后，可以单击“运行”来启动工作流进行数据处理，也可以单击“关闭”，退出工作流编排界面。

----结束

4.6.4 配置流程宏

操作场景

在实际环境中，部分变量（例如源数据的路径）可能经常变化，通过算子编排界面的流程宏，可以配置全局变量，在环境变量发生更改后，只需调整流程宏即可。



47

操作步骤


步骤2 在工作流编排界面右上角单击“更多选项 > 配置宏”。

步骤3 在弹出的“配置宏”对话框中，单击增加变量。

说明

l 变量名称由大写字母、小写字母及数字的一种或几种组成，并且以@开头结尾。

l 不再使用的变量可以单击删除。


步骤5 设置算子参数时，使用设置好的宏替代原有的固定变量。

例如文件实际路径为“/miner/temp/account.csv”，使用宏后，可设置为“@test@/account.csv”。

----结束



48

5 算子帮助

5.1 数据源

5.1.1 读取模型

概述

“读取模型”算子用于载入用户之前保存的模型，将保存文件系统中（例如HDFS）的模型导入工作流中，用于预测。

输入与输出

l 输入：文件。

l 输出：模型。

参数说明

表 5-1 “读取模型”算子参数说明

参数名参数说明

模型文件路径单击“浏览”选择模型文件路径。

样例

无。

5.1.2 读取 Hive 表

概述

“读取Hive表”算子用于从Hive服务器中选择表数据（支持按分区读取），以供其它算子使用。

机器学习服务用户指南 5 算子帮助


49

输入与输出

l 输入：Hive表。

l 输出：数据集。

参数说明

表 5-2 “读取 Hive 表”算子参数说明


表单击“浏览”选择Hive表。

按条件读取 l 不勾选：全部读取。

l 勾选：可指定条件读取数据。单击“读取条件 > 增加一组参数”，可增加条件参数，包括：

– 字段：手动输入，以大小写字母开头，包含大小写字母、数字或下划线，长度不多于128个字符。

– 操作类型：可选操作类型详见表5-3。– 值：用户填写。

单击，可增加一组参数。

单击，可删除该组参数。

单击，使该组参数上移一行。

单击，使该组参数下移一行。

其中，“操作类型”可选条件参数如表5-3所示。

表 5-3 条件参数规则

条件参数意义备注

= 等于 -

!= 不等于 -

> 大于 -

< 小于 -

>= 大于等于 -

<= 小于等于 -

Is null 选取指定列的值中为NULL的记录。 -

Is not null 选取指定列的值中不为NULL的记录。 -



50

条件参数意义备注

Between 选取指定列的值中介于两个值之间的记录。

-

Not between 选取指定列的值中不属于两个值之间的记录。

-

Like 选取指定列的值中符合指定模式的记录。

参考标准SQL，如“%hua%”。

Not like 选取指定列的值中不符合指定模式的记录。

-

Regexp 选取指定列的值中符合指定正则表达式的记录。

参考JAVA正则表达式，如“^hua\\w+$”。

样例

无。

5.1.3 读取 HDFS 文件

概述

“读取HDFS文件”算子用于从分布式文件系统（HDFS）中导入文件。

输入与输出

l 输入：文件。


参数说明

表 5-4 “读取 HDFS 文件”算子参数说明


数据格式支持3种文件格式：“Parquet”、“JSON”和“CSV”。

当“数据格式”为CSV时，需要继续确认表5-5中的参数。

数据文件单击“浏览”选择数据。

其中，“数据格式”为CSV时需要确认的参数如表5-5所示。



51

表 5-5 CSV 文件格式关联参数说明

关联参数名参数说明

导入元数据 l 不勾选：不导入元数据。需要继续确认的参数：“数据是否包括表头”、“字段分隔符”、“处理异常值”和“保存异常记录”。

l 勾选：导入元数据。需要继续确认的参数：“元数据文件”、“处理异常值”和“保存异常记录”。

数据是否包括表头

不勾选“导入元数据”时可见。

l 不勾选：数据不包括表头。

l 勾选：数据包括表头。

字段分隔符数据之间的分隔符，不勾选“导入元数据”时可见。可选“字段分隔符”如下：

l “,”

l “SPACE”：空格。

l “TAB”：制表符。

l “OTHERS”：可自定义分隔符，支持特殊字符（如@、#、$等）、Unicode码和ASCII码。

元数据文件勾选“导入元数据”时可见。

单击“浏览”选择元数据。

处理异常值有三种处理方式：

l “Replace with null”：替换为空值。

l “Stop”：停止运行。

l “Ignore”：当解析错误时，丢弃异常值；当显示为空值时，正常运行。

保存异常记录 l 不勾选：不保存异常记录。

l 勾选：保存异常记录。需要继续确认的参数：“输出文件目录”、“输出文件名”和“允许覆盖”。

输出文件目录勾选“保存异常记录”时可见。

异常值保存路径，单击“浏览”选择保存路径。

输出文件名勾选“保存异常记录”时可见。

异常值保存文件名称（以大小写字母开头，可包含大小写字母、数字和下划线），由用户指定。

允许覆盖勾选“保存异常记录”时可见。

l 不勾选：不允许覆盖。

l 勾选：允许覆盖。



52

样例

假设输入的是一个desc描述文件（如图5-1所示）和两个CSV文件（如图5-2、图5-3所示），则工作流运行后的输出结果如图5-4所示。

图 5-1 读取 HDFS 文件算子输入（desc 文件）

图 5-2 读取 HDFS 文件算子输入（CSV 文件 1）

图 5-3 读取 HDFS 文件算子输入（CSV 文件 2）

图 5-4 读取 HDFS 文件算子输出

图5-5为hvde描述文件格式样例，其中“@Delimiter”表示数据的分割符号。



53

图 5-5 读取 HDFS 文件算子 hvde 描述文件样例

5.2 数据输出

5.2.1 输出 HDFS 文件

概述

“输出HDFS文件”算子用于将当前工作流的运行结果存储到分布式文件系统（HDFS）中。

输入与输出

l 输入：数据集。

l 输出：文件。

参数说明

表 5-6 “输出 HDFS 文件”算子参数说明


文件目录单击“浏览”选择HDFS文件保存路径。

文件名 HDFS文件保存名称（以大小写字母开头，可包含大小写字母、数字和下划线），由用户指定。

文件格式支持3种存储格式：“Parquet”、“JSON”和“CSV”。

选择CSV格式时，需继续确认参数“字段分隔符”。

字段分隔符数据之间的分隔符，选择CSV格式时可见。可选“字段分隔符”如下：

l “,”

l “SPACE”：空格。

l “TAB”：制表符。

l “OTHERS”：可自定义分隔符，支持特殊字符（如@、#、$等）、Unicode码和ASCII码。

允许覆盖 l 不勾选：不允许覆盖。




54

样例

假设输入的数据集如图5-6示，保存为CSV格式，分隔符为“,”，则得到的结果如图5-7、图5-8所示。

图 5-6 “输出 HDFS 文件”算子输入（数据集）

图 5-7 “输出 HDFS 文件”算子输出（描述文件）

图 5-8 “输出 HDFS 文件”算子输出（数据文件）

5.2.2 输出模型

概述

“输出模型”算子用于将用户自定义的模型持久化到文件系统中（例如HDFS），方便后续的使用。

输入与输出

l 输入：模型。

l 输出：文件。



55

参数说明

表 5-7 “输出模型”算子参数说明


模型路径单击“浏览”选择模型保存路径。

模型文件名模型文件保存名称（以大小写字母开头，可包含大小写字母、数字和下划线），由用户指定。

允许覆盖 l 不勾选：不允许覆盖。


样例

无。

5.2.3 输出 Hive 表

概述

“输出Hive表”算子将结果保存为Hive表，表可以是普通表也可以是分区表。

输入与输出


l 输出：Hive表。

参数说明

表 5-8 “输出 Hive 表”算子参数说明


数据库 Hive表的所属schema名称，即表示将Hive表输出到哪个schema。单击“浏览”选择Hive数据库。

表 Hive表保存名称（以大小写字母开头，可包含大小写字母、数字和下划线），由用户指定。

输出模式 Hive表的保存方式，可选方式有“Error if exists”（默认），“Overwrite”和“Append”。

l “Error if exists”：如果目标数据库中已存在指定名称的Hive表时，给出错误提示。

l “Overwrite”：如果目标数据库中已存在指定名称的Hive表时，则将原表数据覆盖掉。

l “Append”：如果目标数据库中已存在指定名称的Hive表时，则将当前表追加到原表。



56


数据格式 Hive表数据的保存格式，可选“TextFile”、“RCFile”（默认）、“SequenceFile”和“ORC”。

l “TextFile”：数据不做压缩，磁盘开销大，数据解析开销大。

l “RCFile”：默认格式，一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

l “SequenceFile”：Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。

l “ORC”：提供一种高效的方法来存储Hive数据，可克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。

是否分区 l 不勾选，不分区。

l 勾选，可指定分区列。单击“分区字段 > 增加一组参数”，可增加分区列：

单击选择元数据，并输入“列名”。





样例

假设算子的输入数据为一个csv文件和一个desc描述文件，如图5-9、图5-10，则HiveWriter算子输出的结果如图5-11所示。

图 5-9 输入数据集（csv 部分数据）



57

图 5-10 输入数据集（desc）

图 5-11 “输出 Hive 表”算子输出（Hive 表部分数据）

5.3 记录操作

5.3.1 聚合

概述

“聚合”算子可以根据业务需要对数据进行各种聚合运算，包括求均值、大值、小值、方差等。用户可以指定需要操作的特征、需要使用的聚合函数以及生成的新特征名称，可以先根据一些字段分组，再做聚合运算。



58

输入与输出


l 输出：聚合运算后的结果数据集。

参数说明

表 5-9 “聚合”算子参数说明


聚合操作函数集

单击“聚合操作函数集 > 增加一组参数”，可增加函数参数：

l 聚合操作函数：可选聚合函数见表5-10。l 新特征名：手动输入，以大小写字母开头，包含大小写字母、

数字或下划线，长度不多于128个字符。

l 特性：用户填写，单击选择元数据。

l 附加特征：“聚合操作函数”为“协方差”、“样本协方差”

或“相关系数”时该参数才可见，用户填写，单击选择元数据。

l 值：“聚合操作函数”为“近似百分比”时该参数才可见，用户填写，设置近似百分比的值。

l 单击，可增加一组参数。




分组的特征单击“分组的特征 > 增加一组参数”，可指定分组的特征：

l 特征：用户填写，以大小写字母开头，包含大小写字母、数字

和下划线，长度不多于128个字符。单击选择元数据。





说明当仅需要做分组而不需要聚合时，就可以仅填充此参数，而不需填充“聚合操作函数集”参数。

此参数只需用户填入特征名，有多个特征时，排在上面的特征将优先分组。



59

其中，“聚合操作函数集”可选聚合操作函数及其含义如表5-10所示。

表 5-10 聚合操作函数

函数名意义备注

sum 求和 -

sum_distinct 去重后求和 -

avg 均值 -

avg_distinct 去重后求均值 -

min 小值 -

max 大值 -

count 计数 -

count_distinct 去重后计数 -

stddev_pop 标准差 -

stddev_samp 样本标准差 -

var_pop 方差 -

var_samp 样本方差 -

covar_pop 协方差需设置附加特征“Additionalattribute”。

covar_samp 样本协方差需设置附加特征“Additionalattribute”。

corr 相关系数需设置附加特征“Additionalattribute”。

percentile_approx 近似百分比需设置近似百分比的值，取值范围为0～1。

样例

图5-12、图5-13为输入数据集合的描述文件，按“age”字段分组再求和，产生的新特征命名为“ageSum”，则运行算子后得到的结果如图5-14所示。



60

图 5-12 输入数据集（csv 部分数据）

图 5-13 输入数据集（desc 描述文件）

图 5-14 运行结果

5.3.2 删除重复行

概述

“删除重复行”算子用于删除数据集中的重复行（假如有两行相同，保留其中一行）。对于那些不允许有重复记录输入的算子算法，可以先使用该算法做预处理。



61

输入与输出



样例

假设输入的数据集如图5-15所示。执行算子后，合并结果如图5-16所示。

图 5-15 删除重复行算子输入数据集样例

图 5-16 删除重复行算子输出数据集样例

5.3.3 记录过滤

概述

“记录过滤”算子可以根据用户给定的条件，对输入数据进行过滤。

输入与输出





62

参数说明

表 5-11 “记录过滤”算子参数说明


过滤条件单击“过滤条件 > 增加一组参数”，设置用于过滤操作的参数。

l 字段：手动输入，以大小写字母开头，包含大小写字

母、数字或下划线，长度不多于128个字符。单击可选择元数据。

l 操作类型：可选操作类型详见表5-12。l 过滤条件值：用户填写。





其中，“操作类型”可选过滤条件参数表5-12所示。

表 5-12 过滤操作类型

操作类型意义备注

= 等于 -

!= 不等于 -

> 大于 -

< 小于 -

>= 大于等于 -

<= 小于等于 -

Is null 选取指定列的值中为NULL的记录。 -

Is not null 选取指定列的值中不为NULL的记录。 -

Between 选取指定列的值中介于两个值之间的记录。

-

Not between 选取指定列的值中不属于两个值之间的记录。

-

Like 选取指定列的值中符合指定模式的记录。

参考标准SQL，如“%hua%”。



63

操作类型意义备注

Not like 选取指定列的值中不符合指定模式的记录。

-

Regexp 选取指定列的值中符合指定正则表达式的记录。

参考JAVA正则表达式，如“^hua\\w+$”。

样例

输入的数据集如图5-17所示，过滤条件为“age=58”，则运行算子后得到的结果如图5-18所示。

图 5-17 “记录过滤”算子输入数据集

图 5-18 “记录过滤”算子运行输出数据集

5.3.4 表连接

概述

“表连接”算子是关系数据库中常用的方法之一，用于以特定的方式将两个数据集联接在一起。

如果想获取两个表中的行匹配的数据，可考虑使用表连接。



64

输入与输出

l 输入：数据集1、数据集2。

l 输出：数据集3。

参数说明

表 5-13 “表连接”算子参数说明


连接类型可选连接类型如下：

l Inner挑选出左数据集“关联字段”和右数据集“关联字段”相同内容的行，并将右数据集“关联字段”之外的列与左数据集合并。

l Left保留左数据集的所有行，并将右数据集“关联字段”和左数据集“关联字段”相同内容的行与左数据集合并，如果左表的某行在右表中没有匹配行，内容填充Null。

l Right保留右数据集的所有行，并将左数据集“关联字段”和右数据集“关联字段”相同内容的行与右数据集合并，空白内容填充Null。

l Full保留左、右数据集的所有行，并将右数据集“关联字段”和左数据集“关联字段”相同内容的行与左数据集合并，空白内容填充Null。

l Semi挑选出左数据集“关联字段”和右数据集“关联字段”相同内容的行，但不合并，输出左数据集中挑出的行。

关联字段单击“关连字段 > 增加一组参数”，添加两个数据集需要联接的属性名：

l 左表字段：左边数据集需要联接的属性名。

l 右表字段：右边数据集需要联接的属性名。





合并关联字段 l 不勾选，不合并左右表的关联字段。

l 勾选，合并关联字段规则如下：“连接类型”为“Right”时，只保留右表的“关联字段”。

“连接类型”为其他情况时，只保留左表的“关联字段”。



65


删除重名的字段

l 不勾选，不删除重名的字段。

l 勾选，删除规则如下：“连接类型”为“Right”时，删除左表中与右表重复的字段。

“连接类型”为其他情况时，删除右表中与左表重复的字段。

样例

输入两个数据表如图5-19和图5-20。“Join type”选择“Inner”，“Join keys”的“Attribute from left”设置为“uid”，“Attribute from right”设置为“uid”。

运行算子之后，得到的结果如图5-21所示。

图 5-19 “读取 Hive 表”算子输入数据集 1

图 5-20 “读取 Hive 表”算子输入数据集 2



66

图 5-21 “表连接”算子运行后用保存 Hive 表算子输出结果

5.3.5 抽样

概述

“抽样”算子可以根据需要，从输入数据集中随机抽取出指定行数或指定百分比的样本数据集。主要应用于从大数据集中抽取出一个小的样本数据集，方便后续处理。

输入与输出



参数说明

表 5-14 “抽样”算子参数说明


抽样方式抽取样本的方法，可选“按行数”或“按比例”。

l 按行数抽取指定行数的样本。使用此方法抽取时，需要设置“抽样行数”和“随机种子”。

l 按比例抽取指定百分比的样本。使用此方法抽取时，需要设置“抽样比例”和“随机种子”。

抽样行数抽取方式为“按行数”时设置。

输入一个不超过数据集总行数的正整数。

l 例如“抽样行数”设为“4”，则从输入数据集中随机抽出4行样本。

l 若“抽样行数”取值比输入数据集的总行数还多，则会把输入数据集的所有数据导出，此算子作用未体现，因此不建议。

抽样比例抽取方式为“按比例”时设置。

例如“抽样比例”设为“60”，输入数据集共有1000行样本，则终会随机抽取出大约600行样本。



67


随机种子随机序列种子，取值范围是0到100。l 取值为“0”，每次运行得到随机的结果。

l 取值1到100，相同的随机序列种子，生成的随机序列相同；如果想要改变样本，则在下一次数据选择设置不同的随机序列种子即可。

样例

假设“抽样”算子的输入数据集如图5-22所示，通过按行数方法抽取指定行数的样本，抽样行数设置为10，随机种子设为0至100的任一整数（本例中为1）。

执行算子后抽取出来的样本数据集如图5-23所示的10行。如果在下次数据选择时依然需要用这10行样本，则只需随机种子设为1；如果需要重新抽取新的10行样本，则修改随机种子（例如设置为2），那么输出的数据集将如图5-24所示的新的10行样本。

通过按比例方法抽样同理。

图 5-22 抽样算子输入数据集

图 5-23 抽样算子输出数据集样例 1



68

图 5-24 抽样算子输出数据集样例 2

5.3.6 排序

概述

“排序”算子可以对数据进行排序，支持降序和升序。

输入与输出



参数说明

表 5-15 “排序”算子参数说明


排序字段单击“排序字段 > 增加一组参数”，设置排序的字段及方式。

l 字段

– 手动输入，以大小写字母开头，包含大小写字母、数字或下划线，长度不多于128个字符。

– 单击选择元数据。

l 类型

– ASC：升序。

– DESC：降序。







69

样例

“排序”算子输入数据如图5-25所示，按照uid字段升序排列，age字段降序排列，则运行算子后得到的结果如图5-26所示（第一个属性为主排序字段）。

图 5-25 排序算子输入数据集

图 5-26 排序算子输出数据集

5.3.7 分割数据集

概述

“分割数据集”算子可以根据业务需要，将输入的数据集依据百分比或者某些设定的条件拆分成两个数据集。可用于模型训练前将数据拆分为训练集和验证集。



70

输入与输出



参数说明

表 5-16 “分割数据集”算子参数说明


分裂方式可选方法为“比例”：按照指定百分比将数据集拆分成两个规模更小的数据集。

子数据集1的比例

拆分数据集的比例，取值范围为“0～100”。

例如将“子数据集1的比例”设为“70”，则从输入数据集中随机抽出70%的样本作为数据集1，剩余的30%作为数据集2。

随机种子用于设置在拆分时生成随机数的种子，默认值为“1”。对同一数据集，如果其他的参数设置相同，且“随机种子”设置也为相同的值，则多次运行此算子，其拆分的结果相同。

样例

假设输入的数据集如图5-27所示包含15个样本（每一行表示一个数据样本）。使用比例方法将数据集按照指定百分比进行拆分，比例如40%，设置“子数据集1的比例”为“40”，“随机种子”设为0至100的任一整数（例如设置为“1”）。

执行算子后将数据集拆分成两个数据集，两个数据集分别如图5-28所示的包含6个样本的数据集1和图5-29所示的包含9个样本的数据集2。

如果需要在下次对数据集进行拆分时保持拆分后的两个数据集不变，则只需将“随机种子”仍然设为“1”；而如果需要再次拆分，则修改“随机种子”，例如改为“15”，那么输出的两个数据集包含的样本将会发生改变，但拆分后数据集的个数不会发生变化。如果需要改变拆分百分比，则只需修改“子数据集1的比例”的值。



71

图 5-27 分割数据集算子输入数据集样例

图 5-28 分割数据集算子拆分后输出数据集 1

图 5-29 分割数据集算子拆分后输出数据集 2



72

5.3.8 合并

概述

“合并”算子用于将两个数据集合并成一个数据集，要求输入的两个数据集包含相同的列数，且对应列的数据类型和度量类型相同。若两个数据集属性名称不相同，合并后的数据集与输入的第一个数据集相同。

输入与输出

l 输入：数据集1、数据集2。


样例

假设输入的两个数据集如图5-30、图5-31所示。

执行算子后，结果如图5-32所示。

图 5-30 合并算子输入数据集样例 1

图 5-31 合并算子输入数据集样例 2



73

图 5-32 合并算子输出数据集样例

5.4 字段操作

5.4.1 相关性选择

概述

“相关性选择”算子用于选取指定数量的重要的特征。

算子使用卡方校验的方法来判断特征之间的独立程度。卡方校验的核心思路是通过比较观察值和理论值之间的差异来判断假设是否成立。假设两个变量是独立的；计算理论值和观察值的偏差程度以判断是否接受假设。如果偏差较小，则接受假设，否则拒绝。

输入与输出


l 输出：数据集、文件。

参数说明

表 5-17 “相关性选择”算子参数说明


相关特征数量

要选取的重要的特征数量。

输入一个整数K，算子的输出将会是所有特征中与类标识特征（label列）关联性大的K个特征。



74


输出路径相关的K个特征的保存路径。

该参数表示一个HDFS的路径，可以自己输入，也可以单击“浏览”选择已有文件路径。

输出文件名相关的K个特征的保存文件名。

手动输入，以大小写字母开头，包含大小写字母、数字和下划线。

允许覆盖 l 不勾选，如果之前有同名文件的话，算子执行后会报错。

l 勾选，直接覆盖原来的文件名。

样例

假设输入的数据集如图5-33、图5-34所示，设“az”为“label”列，“Top K”取值为“2”，则结果如图5-35、图5-36所示。图5-37是算子保存的特征的样例，该文件可以作为Select算子的输入。

图 5-33 相关性选择算子输入（元数据）

图 5-34 相关性选择算子输入（数据）

图 5-35 相关性选择算子输出（元数据）



75

图 5-36 相关性选择算子输出（数据）

图 5-37 相关性选择算子输出（Top K 特征）

5.4.2 转换

概述

“转换”算子用于将输入数据集的某一个特征的数据进行转换，目前支持“Sin”、“Cos”、“Exponential”和“Log(10)”函数的转换。

输入与输出



参数说明

表 5-18 “转换”算子参数说明


转换单击“转换 > 增加一组参数”添加需要转换的数据特征。

特征 l 手动输入，以大小写字母开头，包含大小写字母、数字或下划

线，长度不多于128个字符。单击选择元数据。





转换规则转换规则函数，可选“Sin”、“Cos”、“Exponential”或者“Log(10)”。



76


偏移量转换规则为“Log(10)”时需要设置。

原数据集的偏移量，例如设置为“2”，则原数据+2之后再转换。

样例

输入数据集如图5-38所示的样本，转换算子“特征”参数选择“uid”字段，转换规则选择“Log(10)”函数，“Offset”设置为“0”（直接对数据进行转换），运行后结果如图5-39所示，若“Offset”设置为“2”，则对原数据加上2之后再转换，运行结果如图5-40所示。

图 5-38 转换算子输入数据集样例

图 5-39 转换算子输出数据集样例 1



77

图 5-40 转换算子输出数据集样例 2

5.4.3 离散化

概述

“离散化”算子用于离散化连续数据，即把连续的一系列值离散到几个类别中。

有三种离散化方法可选：桶数、用户参数和频率。

输入与输出



参数说明

表 5-19 “离散化”算子参数说明


离散方式 l 桶数选择该离散化类型，离散化后得到的是各属性值所属的区间名及范围。需要添加的参数为“离散化特征”和“小数位数”。

l 用户参数选择该离散化类型，用户可以自定义离散化区间边界，离散化后得到的是各属性值所属的区间索引。需要添加的参数为“离散化特征”。

l 频率选择该离散化类型，数据会被排序，然后平均分到各个桶中，离散化后得到的是各属性值所属的区间索引。需要添加的参数为“离散化特征”。



78


离散化特征单击“离散化特征 > 增加一组参数”，离散方式不同，需配置的参数也不同。

l “离散方式”为“桶数”时，需配置以下参数：

– 特征：手动输入，以大小写字母开头，包含大小写字母、数

字或下划线，长度不多于128个字符。单击选择元数据。

– 桶数：桶个数，默认值为2。– 区间索引列的枚举值：桶名称，总数必须与桶个数相同，用

“;”隔开。

– 显示边界：不勾选时，不生成区间列；勾选时，生成区间列，生成列名为“当前列名_range”。

l “离散方式”为“用户参数”时，需配置以下参数：



– 离散化区间的上限：离散化区间索引及对应的上限。取值形式为“first:Range1;second:Range2;third:Range3;over”。

特征X在“(-∞,Range1]”之间的值会被离散化成“first”。

特征X在“(Range1,Range2]”之间的值会被离散化成“second”。

特征X在“(Range2, Range3]”之间的值会被离散化成“third”。

特征在“(Range3,＋∞)”之间的值会被离散成“over”。也可不指定后的“over”，则“(Range3,＋∞)”之间的值会被离散成“over_third”。

– 显示边界：不勾选时，不生成区间列；勾选时，生成区间列，生成列名为“当前列名_range”。

l “离散方式”为“频率”时，需配置以下参数：



– 桶数：桶个数，默认值为10。– 显示边界：不勾选时，不生成区间列；勾选时，生成区间

列，生成列名为“当前列名_range”。



79


小数位数 “离散方式”为“桶数”时，才需要配置该参数。表示确认区间范围时所使用的精度，默认值为-1，有效值范围为大于等于-1的整数。

l “-1”代表对数据不做截取操作。

l “非-1”代表数据要保留的小数点后位数。

说明





样例

以下给出“用户参数”离散化算子的样例，其它类型的离散化类似。

假设输入的数据集如图5-41所示，离散化属性为“price”，

l 若“离散化区间上限”输入“first:100;second:300;over”。

– 不勾选“显示边界”，结果如图5-42所示。

– 勾选“显示边界”，结果如图5-43所示。

l 若“离散化区间上限”输入“first:100;second:300”。

勾选“显示边界”，结果如图5-44所示，第三个区间的名称自动生成为“over_second”。

图 5-41 “用户参数”离散化算子输入数据集



80

图 5-42 “用户参数”离散化算子运行结果 1（不勾选“显示边界”）

图 5-43 “用户参数”离散化算子运行结果 1（勾选“显示边界”）

图 5-44 “用户参数”离散化算子运行结果 2（勾选“显示边界”）

5.4.4 二值化

概述

“二值化”算子用于将Nominal的数据转换成二值化形式。

例如：数据集中有一列Nominal类型的数据属性为“天气”，取值为：“下雨”、“阴天”、“晴天”，二值化后就会转换成新的三列数据“天气_下雨”、“天气_阴天”



81

和“天气_晴天”，当“天气”为“下雨”时，“天气_下雨”这一列的取值就为“1”，否则为“0”。

输入与输出


l 输出：数据集、文件。

参数说明

表 5-20 “二值化”算子参数说明


从特征词典读取

l 不勾选，手动输入二值化特征。需要确定的参数“二值化特征”、“输出特征词典文件目录”、“输出特征词典文件名称”和“允许覆盖”。

l 勾选，从文件中导入特征词典。需要确定的参数“特征词典文件路径”。

二值化特征用于二值化的特征列表。所选特征必须是Nominal类型。Nominal的值为字母、数字和下划线组合并且以字母开始。

单击“二值化特征 > 增加一组参数”：

l 特征：特征列表。单击选择元数据。





输出特征词典文件目录

存储特征列表的路径，单击“浏览”选择。

输出特征词典文件名称

存储特征列表的文件名，手动输入，以大小写字母开头，包含大小写字母、数字和下划线。

允许覆盖 l 不勾选，不覆盖同名文件。

l 勾选，覆盖同名文件。

特征词典文件路径

勾选“从特征词典读取”参数时，才需要配置此参数。表示特征词典文件的路径，单击“浏览”选择。

样例

假设输入的数据集如图5-45、图5-46所示，对product_name和depreciate二值化，则算子的运行结果如图5-47、图5-48所示。图5-49是算子保存的特征的样例（特征词典），该文件可以作为算子二值化特征的输入。



82

图 5-45 二值化算子输入（元数据）

图 5-46 二值化算子输入（数据）

图 5-47 二值化算子输出（元数据）

图 5-48 二值化算子输出（数据）



83

图 5-49 二值化算子输出（特征词典）

5.4.5 特征生成

概述

“特征生成”算子用于在数据集中生成任意可行的新属性字段，对现有数据的某个属性操作，例如2*某个属性、两个属性乘积等，允许用户自定义生成属性名称，并将生成的新属性字段添加到原数据集中。

若勾选“ID生成”，可以为数据集指定ID并设置“ID名”，通过输入“偏移量”指定ID的起始值，ID列会添加到数据集的左侧。

输入与输出



参数说明

表 5-21 “特征生成”算子参数说明


生成特征单击“生成特征 > 增加一组参数”：

l 新特征：需要生成的新属性名称。新属性由用户在表达式中指定的规则生成。例如用户可以指定新属性名为“doubleAge”，生成规则表达式为“age*2”，则运行该算子之后，会出现新的名为doubleAge的属性，其包含的数据是age属性数据的2倍。

l 生成规则表达式：用于指定生成属性的规则。

– 直接填数字1，则生成新的一列，值全部为1，填入两个单引号，则生成新的一列空字符串。

– case when...then...else...end句式，例如“case when age>20 thenage+1”（可拼接多个when ... then ...，可选else age-1）end。

– 一些简单的表达式，如“2*attributeName、attrName1*attributeName2、cos(attributeName)+1、attributeName*attributeName+log(attributeName)+1”等。







84


ID生成 l 不勾选，不生成ID列。

l 勾选，生成ID列，此时界面将要求输入“ID名”和“偏移量”。

ID名 ID名称，手动输入，以大小写字母开头，包含大小写字母、数字或下划线，长度不多于128个字符。

偏移量 ID起始值，默认值为0。

样例

假设输入的数据集如图5-50所示，添加“生成特征”参数，设置“新特征”为“asset2”，设置“生成规则表达式”为“uid*asset”。如果要生成ID，则勾选“ID生成”，设置“ID名”为“id”，设置“偏移量”为“0”。

执行算子生成新属性后的数据集如图5-51所示，生成新ID列后的数据集如图5-52所示。

图 5-50 特征生成算子输入数据集样例



85

图 5-51 特征生成算子输出数据集样例 1

图 5-52 特征生成算子输出数据集样例 2

5.4.6 规范化

概述

“规范化”算子用于对一个特征或多个特征在指定范围内进行标准化处理。在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。

当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。为了保证结果的可靠性，需要对原始指标数据进行标准化处理，便于不同单位或量级的指标能够进行比较和加权。

输入与输出





86

参数说明

表 5-22 “规范化”算子参数说明


特征单击“特征 > 增加一组参数”：

l 特征：手动输入，以大小写字母开头，包含大小写字母、数字

或下划线，长度不多于128个字符。单击选择元数据。





方法用于标准化的方法，可选：

l 极差变换原始数据的线性变换。

设min和max分别为特征x的小值和大值，将x的值通过min-max标准化映射成到区间“[left,right]”：

选择该方法会关联表5-23中参数。

l Z变换基于原始数据的均值和标准差进行数据的标准化。

将x的原始值使用Z-transformation标准化：


l 比例变换按比例标准化，使其属性值和为1。




87

选择极差变换方法会关联以下参数：

表 5-23 极差变换相关参数


小值相当于标准化区间的left值。

大值相当于标准化区间的right值。

从文件中读取小值与大

值

l 不勾选，不从文件里读取整体样本的小值、大值。

l 勾选，从文件里读取整体样本的小值、大值，需要填写“文件路径”。

文件路径载入路径，单击“浏览”选择。勾选“从文件中读取小值与大值”时必填。

输出路径保存路径，单击“浏览”选择。

文件名保存文件名称。

覆写 l 不勾选，不覆写。

l 勾选，覆写。

选择Z变换方法会关联以下参数：

表 5-24 Z 变换相关参数


从文件中读取均值和方差

l 不勾选，不从文件里面读取整体样本的均值和方差。

l 勾选，从文件里面读取整体样本的均值和方差，需要填写“文件路径”。

文件路径载入路径，单击“浏览”选择。勾选“从文件中读取均值和方差”时必填。

输出路径保存路径，单击“浏览”选择。




选择比例变换方法会关联参数：



88

表 5-25 比例变换相关参数


从文件中读取和值

l 不勾选，不从文件里面读取整体样本的和值。

l 勾选，从文件里面读取整体样本的和值，需要填写“文件路径”。

文件路径载入路径，单击“浏览”选择。勾选“从文件中读取和值”时必填。

保存路径保存路径，单击“浏览”选择。




样例

假设输入的数据集如图5-53所示，对salary和age字段按“ 小值”为“0”，“ 大值”为“1”进行“极差变换”标准化，则运行算子后得到的结果如图5-54所示。

图 5-53 规范化算子输入数据集



89

图 5-54 规范化算子输出数据集

5.4.7 重命名

概述

“重命名”算子用于修改一个或多个属性名称。

输入与输出





90

参数说明

表 5-26 “重命名”算子参数说明


重命名字段单击“重命名字段 > 增加一组参数”：

l 原名称：手动输入，以大小写字母开头，包含大小写字母、数


l 新名称：手动输入，以大小写字母开头，包含大小写字母、数字或下划线，长度不多于128个字符。





样例

Rename算子对数据的属性重命名，例如将输入数据的age、asset、cls字段分别重命名为age2、asset2、cls2。图5-55表示输入的数据集，图5-56表示Rename算子运行输出得到的结果。

图 5-55 重命名算子输入数据集



91

图 5-56 重命名算子运行结果

5.4.8 替换

概述

“替换”算子用于对数据中指定属性名满足条件的内容进行替换。

用户可以根据需要，从输入数据集中依据条件替换某一个或多个属性，可选的条件包括“=”、“!=”、“Like”、“Between”等。

输入与输出





92

参数说明

表 5-27 “替换”算子参数说明


替换字段单击“替换字段 > 增加一组参数”：

l 字段：手动输入，以大小写字母开头，包含大小写字母、数字


l 替换规则：详细的替换规则及对应参数设置如表5-28所示。

l 原值：需要被替换的值。

l 替换值：用来替换的新值。

l 开始值：“Between”规则或“Not between”规则需要的开始值。

l 结束值：“Between”规则或“Not between”规则需要的结束值。





详细的替换规则及对应参数设置说明如下。

表 5-28 替换规则

替换规则参数说明

= l 字段

l 原值

l 替换值

“字段”中等于“原值”的数据，将被“替换值”替换。

!= l 字段

l 原值

l 替换值

“字段”中不等于“原值”的数据，将被“替换值”替换。

> l 字段

l 原值

l 替换值

“字段”中大于“原值”的数据，将被“替换值”替换。



93

替换规则参数说明

< l 特征名

l 原值

l 替换值

“字段”中小于“原值”的数据，将被“替换值”替换。

>= l 字段

l 原值

l 替换值

“字段”中大于或等于“原值”的数据，将被“替换值”替换。

<= l 字段

l 原值

l 替换值

“字段”中小于或等于“原值”的数据，将被“替换值”替换。

Like l 特征名

l 原值

l 替换值

“字段”匹配指定模式（“原值”）的数据，将被“替换值”替换。模式的编写规则参照SQL 92标准。

Not like l 字段

l 原值

l 替换值

“字段”不匹配指定模式（“原值”）的数据，将被“替换值”替换。模式的编写规则参照SQL 92标准。

Between l 字段

l 开始值

l 结束值

l 替换值

“字段”中介于“开始值”和“结束值”之间的数据，将被“替换值”替换。

Not between l 字段

l 开始值

l 结束值

l 替换值

“字段”中小于“开始值”或大于“结束值”的数据，将被“替换值”替换。

Is null l 字段

l 替换值

“字段”中为NULL的数据，将被“替换值”替换。

Regexp l 字段

l 原值

l 替换值

“字段”中匹配正则表达式（“原值”）的数据，将被“替换值”替换。正则表达式的编写规则参照JAVA正则表达式。

样例

假设输入的数据集如图5-57所示，假设现在需要将属性名为“asset”的字段中所有大于或等于10的值替换为10，则可以通过设置属性名为“asset”，替换规则为“>=”，被替换的值为10，用来替换的新值为10。

执行算子后抽取出来的样本数据集如图5-58所示。



94

图 5-57 “替换”算子输入数据集样例

图 5-58 “替换”算子输出数据集

5.4.9 字段选择

概述

“字段选择”算子用于从输入数据集中选取指定属性名的数据。

用户可以通过指定属性名来获得数据，也可以通过输入包含属性名的文件来达到相同的目标。先指定的属性会排在输出结果的左侧，所以也可以用该算子调整原始数据集的排列顺序。



95

输入与输出l 输入：数据集。


参数说明

表 5-29 “字段选择”算子参数说明


字段类型属性选择方式，可选：

l 字段通过指定属性名的方式选择数据。使用此方式选择数据时，需要设置属性名。当需要获取多个指定属性名的数据时，可以在“字段类型”输入框输入的多个属性名，以回车分隔符分隔。

l 字段文件通过指定事先保存好的属性文件选择数据。使用此方式选择数据时，需要指定包含属性名的文件路径，可单击“浏览”选择。文件中应该包含需要选择的数据的属性名。

反选 l 不勾选，不逆向选取属性，即取到指定的属性列。

l 勾选，逆向选取属性，即取到的是除指定属性列外的其他属性列数据。

样例

假设输入的数据集如图5-59所示，设置“字段类型”为“cls”和“age”。

执行算子后选取出的数据如图5-60所示。如果勾选“反选”，算子执行结果如图5-61所示。

通过“字段文件”方式选择类似。

图 5-59 字段选择算子输入数据集样例



96

图 5-60 字段选择算子输出数据集样例 1

图 5-61 字段选择算子输出数据集样例 2

5.4.10 设置元数据

概述

“设置元数据”算子用于操作元数据，可以转换数据类型，设置属性的角色和输出特性。

该算子主要为后续的模型训练和应用做必要的准备。



97

输入与输出





98

参数说明

表 5-30 “设置元数据”算子参数说明


设置单击“设置 > 增加一组参数”：

l 字段：字段名，手动输入，以大小写字母开头，包含大小写字

母、数字或下划线，长度不多于128个字符。单击选择元数据。

l 类型

– 空：表示不修改原有类型。

– Real：实数型。

– Integer：整型。

– String：字符型。

– Date Time：日期，选择此项时，需要额外设置“输入数据模式”和“输出数据模式”。

说明当需要转换的类型是String时，用户必须指定跟String数据相匹配的输入格式（如输入的是2014/03/04，则输入格式就是yyyy/MM/dd），用户必须指定“输出数据模式”。只有String结构的时间数据、时间戳、和时间类型才可以转换成Date Time类型。

l 角色

– 空：表示不修改原有角色。

– Input：表示输入。未被设为其他特殊角色的都默认为Input。Input角色的字段用作机器学习的输入。

– Target：表示目标。用于表示机器学习的预测字段。

– Rejected：表示忽略。Rejected字段不参与机器学习。

– ID：表示标识。通常这个属性在整个样本集中是独一无二的。目前暂未正式启用。

l 度量指标

– 空：表示不修改原有度量指标。

– Null：表示擦除度量指标。

– Nominal：表示枚举类型，选择此项时需要设置“枚举值”和“设置方式”

– Interval：表示区间类型，需要指定区间范围，选择此项时需要设置“区间值”。

l 枚举值该字段的枚举值，度量指标为Nominal时设置。

在“枚举值”的参数值的顺序也决定了这个特征作为label列用于训练或预测时的正负样本值。第一个值代表负样本，第二个值代表正样本。

例如在“枚举值”参数设置为“true,false”，则true为负样本值，在“枚举值”参数设置为“false,true”的时候，则false为负样本值。



99


l 设置方式

– Reset：字段原来的枚举值将会被“枚举值”参数下填入的值替换。

– Add：字段本身必须为枚举类型，在“枚举值”参数下填入的值是该字段要新增的枚举值。

l 区间值度量指标为Interval时设置。如果“类型”是“DateTime”，则区间中值的格式需要跟指定的“输出数据模式”。





说明

l 如果一个列被重复设置为不同的“类型”或“角色”或“度量指标”、则最上面的设置生效。

l 如果一列的“类型”或“角色”或“度量指标”空则表示该列设置为输入时的“数值类型”或“角色”或“度量指标”值。

l Long类型转DateTime类型时、Long类型数据默认是以毫秒为单位的时间戳。

l 在日期时间显示（如时间格式是年/月/日时：分：秒）中，如果输入的数据只有日期、那么时间部分会被填充为00:00:00；如果输入数据只有时间、那么日期部分会被填充为1970/01/01。

样例

该算子用于设置元数据，它的主要作用体现在后续的模型训练和应用阶段。假如输入如图5-62所示，转换条件是：a->String\b->Integer\c->Real，则输出如图5-63所示。

图 5-62 设置元数据算子输入数据集元数据及数据



100

图 5-63 设置元数据算子输出数据集元数据及数据

5.4.11 时序抽取

概述

“时序抽取”算子用于对时间序列数据进行过滤。

输入与输出



参数说明

表 5-31 “时序抽取”算子参数说明


日期字段手动输入，以大小写字母开头，包含大小写字母、数字或下划线，

长度不多于128个字符。单击选择元数据。

过滤条件用于过滤样本的条件，可选“按月”、“按日期”和“按字段”。选择不同的条件需要设置不同的参数。

l 按月选择按月作为过滤条件，将得到指定月份的数据。关联表5-32中的参数。

l 按日期选择按日期作为过滤条件，用户需要直接指定要选择的始止日期。关联表5-33中的参数。

l 按字段选择按字段作为过滤条件，用户需要直接指定表示始止日期的列。关联表5-34中的参数。



101

l 选择按月关联的参数信息如下：

表 5-32 按月的关联参数


过滤的月份数正整数值。

过滤的截止日期或字段

截止时间支持的格式有：

yyyyMMdd、yyyy年MM月dd日、yyyy-MM-dd、yyyy/MM/dd。l 输入截止日期：得到的是固定的时间区间。

假设“过滤的月份数”设置为“3”，“过滤的截止日期或字段”设置为“20140730”时，时间区间“[20140429,20140730)”的数据将被筛选出来。

l 输入截止日期对应的列：得到的时间区间随着列值变化而变化。假设“过滤的月份数”设置为“3”，当“过滤的截止日期或字段”取值为一个日期类型的列时，例如在一行数据中，这个列的值是“20070701”，那么当日期类型的列的值在时间区间“[20070330,20070701)”时，该行才会被筛选出来。

l 选择按日期关联的参数信息如下：

表 5-33 按日期的关联参数


起始日期假如起始日期为“20070410”，终止日期为“20070710”，则在时间区间“[20070410,20070710]”的数据将会被筛选出来。

截止日期

l 选择COLUMN关联的参数信息如下：

表 5-34 按字段的关联参数


起始字段假如有一行数据，“起始字段”的值设置为“20070401”，“截止字段”为“20070701”，那么当日期类型的列的值在时间区间“[20070401,20070701]”时，该行才会被筛选出来。截止字段

样例

假设输入的数据集如图5-64所示，设置过滤条件为“按月”，“过滤的月份数”为“3”，“过滤的截止日期或字段”为“20140730”，则输出如图5-65所示。



102

图 5-64 时序抽取算子输入数据集

图 5-65 时序抽取算子输出数据集

5.4.12 重建

概述

“重建”算子用于将输入的行列式数据集，按照指定的规则进行转置，生成新的行列式数据集。

输入与输出




103


参数说明

表 5-35 “特征转换”算子参数说明

参数名含义说明

单字段转置是否单字段转置 l 不勾选“单字段转置”，不勾选“是否聚合”时，确定表5-36中的参数。

l 勾选“单字段转置”，不勾选“是否聚合”时，确定表5-37中的参数。

l 不勾选“单字段转置”，勾选“是否聚合”时，确定表5-38中的参数。

l 勾选“单字段转置”，勾选“是否聚合”时，确定表5-39中的参数。

是否聚合是否聚合

l 不勾选“单字段转置”，不勾选“是否聚合”时，确定的参数如下：

表 5-36 不勾选单字段转置且不聚合的相关参数


转置的特征组合

不勾选“单字段转置”时确定。

单击“转置的特征组合 > 增加一组参数”：

l 被转置的特征：手动输入，以大小写字母开头，包含大小写字

母、数字或下划线，长度不多于128个字符。单击选择元数据。

l 枚举集合：需要枚举的值，如果是多个，则以逗号分隔。

l 取值特征：指定数据类型为“INTEGER”或者“REAL”的列字段，手动输入，以大小写字母开头，包含大小写字母、数字






l 勾选“单字段转置”，不勾选“是否聚合”时，确定的参数如下：



104

表 5-37 单字段转置且不聚合的相关参数


被转置的特征勾选“单字段转置”时确定。

手动输入，以大小写字母开头，包含大小写字母、数字或下划


枚举集合需要枚举的值，如果是多个，则以逗号分隔。

取值特征指定数据类型为“INTEGER”或者“REAL”的列字段，手动输入，以大小写字母开头，包含大小写字母、数字或下划线，


l 不勾选“单字段转置”，勾选“是否聚合”时，确定的参数如下：

表 5-38 不勾选单字段转置且聚合的相关参数


聚合ID 手动输入，以多个字母、数字、下划线为组合，用分号分隔。

转置的特征组合

不勾选“单字段转置”时确定。

单击“转置的特征组合 > 增加一组参数”：

l 被转置的特征：手动输入，以大小写字母开头，包含大小写

字母、数字或下划线，长度不多于128个字符。单击选择元数据。

l 枚举集合：需要枚举的值，如果是多个，则以逗号分隔。

l 取值特征：指定数据类型为“INTEGER”或者“REAL”的列字段，手动输入，以大小写字母开头，包含大小写字母、

数字或下划线，长度不多于128个字符。单击选择元数据。

l 聚合函数：对行标识字段相同的记录进行聚合运算。

可选Sum、Avg、Min、Max。单击选择元数据





l 勾选“单字段转置”，勾选“是否聚合”时，确定的参数如下：



105

表 5-39 单字段转置且聚合的相关参数


被转置的特征勾选“单字段转置”时确定。

手动输入，以大小写字母开头，包含大小写字母、数字或下划


枚举集合勾选“单字段转置”时确定。

需要枚举的值，如果是多个，则以逗号分隔。

取值特征勾选“单字段转置”时确定。

指定数据类型为“INTEGER”或者“REAL”的列字段，手动输入，以大小写字母开头，包含大小写字母、数字或下划线，


聚合ID 手动输入，以多个字母、数字、下划线为组合，用分号分隔。

聚合函数对行标识字段相同的记录进行聚合运算。

可选求和、均值、小值、大值。

单击选择元数据。

样例

输入如图5-66所示的样本，取消勾选“单字段转置”，勾选“是否聚合”，“聚合ID”填入id_test字段，“被转置的特征”选择month_test字段，“枚举集合”取“JAN、FEB”，“取值特征”取“age_test”，“聚合函数”取“Sum”。

单击，再增加一组参数，即再增加一个字段转置，“被转置的特征”选择method_test字段，“枚举集合”取“1,2”，“取值特征”取“age_test”，“聚合函数”取“Sum”。则运行该算子后得到的结果如图5-67所示。

说明

假如month列还有jan、feb等枚举值，当枚举集合同时取JAN和jan时，算子在生成列名的时候会将大写转换成小写，即结果中就会有两个相同的列，访问时就会出错。



106

图 5-66 重建算子输入数据集样例

图 5-67 重建算子输出数据集样例

5.4.13 元数据

概述

“元数据”算子用于设置元数据，为后续的模型训练和应用做必要的准备。

说明

在工作流构建中，“元数据”算子和“设置元数据”算子都可以实现设置元数据的功能，推荐优先使用“元数据”算子。

输入与输出



参数说明

表 5-40 “元数据”算子参数说明


设置元数据单击“设置元数据”，可以修改“衡量”、“值”和“角色”参数。



107

5.5 分类

5.5.1 逻辑回归

概述

“逻辑回归”本质上是一种线性回归模型，它通过Logistic函数将线性回归的输出归一化到“[0,1]”区间，即概率区间。

相对于线性回归，逻辑回归对于实际应用更具有指导意义，因为逻辑回归输出的概率值可以提供有价值的信息，并且可以直接应用该结果进行分析。

由于逻辑回归本质上是一种线性回归，因此在考虑使用逻辑回归模型前，要保证所提出的特征与目标变量之间的关系可以使用线性模型来表示。特征与目标变量之间的线性关系越强，逻辑回归的模型性能越好。

输入与输出



参数说明

逻辑回归算法需要计算一个模型参数，即回归系数。有两种计算模型参数的方法：SGD和LBFGS，默认值为LBFGS。

l SGD：随机梯度下降法（Stochastic Gradient Descent），选择此回归方法请参照表5-41配置参数。

l LBFGS：受限拟牛顿法（Limited-Memory BFGS），选择此回归方法请参照表5-42配置参数。

表 5-41 SGD 回归方法的参数配置


回归方法 SGD

迭代次数逻辑回归模型需要运行的迭代次数。

迭代步长迭代步长，即模型的第1步的步长，后续步长会根据所采取策略不同而做出相应调整。步长越小收敛速度越慢，但如果步长太大，则容易造成难以收敛的情况。

正则化参数正则化参数，取值大于等于0。当正则化参数取值为“0”时，正则化函数不起作用。正则化的目的是为了约束训练过程，使其向生成简单模型的方向收敛，从而避免过拟合。

随机梯度下降法

在每次迭代过程中更新权值的方法，随机梯度下降法有2种：L1和L2。



108


单次迭代样本比率

逻辑回归模型在每次迭代过程中所需要的样本数的小比率，取值范围为“(0,1]”，其基数是训练数据集样本数量。默认值为“1”，即每次迭代所需要的样本数量与训练集的样本数量相同。

初始特征权重该参数用于设置特征的初始化权重值，默认的初始权重值为“0.0”，相关设置如下：

单击“初始特征权重 > 增加一组参数”：

l 特征：手动输入，以大小写字母开头，包含大小写字母、数字或

下划线，长度不多于128个字符。单击选择元数据。

l 权重值：默认值为“0.0”，在二分类问题中，每一个特征对应一个初始化权重值。





表 5-42 LBFGS 回归方法的参数配置


回归方法 LBFGS

迭代次数逻辑回归模型需要运行的迭代次数。

正则化参数正则化参数，取值大于等于0。当正则化参数取值为“0”时，正则化函数不起作用。正则化的目的是为了约束训练过程，使其向生成简单模型的方向收敛，从而避免过拟合。

受限拟牛顿法在每次迭代过程中更新权值的方法，受限拟牛顿法为L2。

收敛误差设置模型的迭代的收敛误差值。收敛误差的值越小，则模型的准确性越高，与此同时也会增加模型的迭代次数。



109


初始特征权重该参数用于设置特征的初始化权重值，默认的初始权重值为“0.0”，相关设置如下：

单击“初始特征权重 > 增加一组参数”：

l 特征：手动输入，以大小写字母开头，包含大小写字母、数字或

下划线，长度不多于128个字符。单击选择元数据。

l 权重值：默认值为“0.0”，在二分类问题中，每一个特征对应一个初始化权重值。

说明在使用LBFGS方法处理多分类问题的时候，令候选标签数量为numOfClasses，由于LBFGS方法需要训练numOfClasses-1个模型，每一个特征在每一个模型中都需要指定一个权重值，因此在多分类问题中参数“Weight”需要设置numOfClasses-1个权重值，令n=numOfClasses-1，则其输入形式为“Value_1,Value_2,…,Value_n”。





样例

“逻辑回归”算子的输出为模型，其中“attr_[数值]”为参与建模的属性名称。



110

图 5-68 逻辑回归算子输出样例

5.5.2 随机森林

概述

“随机森林”算子用于产生分类模型或回归模型。

随机森林是用随机的方式建立一个森林模型，森林由很多的决策树组成，每棵决策树之间没有关联。当有一个新的样本输入时，森林中的每一棵决策树分别进行判断，看该样本对应哪一类（分类）或哪一个值（回归）。对于分类问题，哪一类被选择多，就预测这个样本属于那一类；对于回归问题，该样本取值为所有决策树的预测值的平均值。

输入与输出





111

参数说明

表 5-43 “随机森林”算子参数说明


学习类型选择的训练方法，可选值为“分类”和“回归”。

l 分类：代表分类树。选择分类时，类别的个数由label列枚举值的个数决定。

l 回归：代表回归树。

树的数目树的棵数，取值区间为“[1,300]”。树的棵数太小会影响模型的精度，太大则容易造成过拟合及性能问题，建议在50~300这个范围。

大树深度

树的大深度，取值区间为“(0,30]”。树的深度太小会影响模型的精度，太深则容易造成过拟合。

大分箱数

对连续的值进行范围划分，每个区间代表一个bin。该参数的小值为10，不能小于各枚举特征（categorical feature）的大取值数目。

不纯度仅在选择分类学习类型时设置。

树节点标签的混杂度计算标准，选值有“Gini”和“Entropy”。

l Gini：代表不纯度值。类别分布越平均，Gini值越大，类别分布越不均匀，Gini值越小。

l Entropy：代表熵值。熵值在0～1之间分布，熵越小说明数据集越纯。

特征子集选取策略

选择候选分裂特征数量的策略。

在树节点分裂前，需要选择一个特征子集，然后算法从这个子集中选择一个重要的特征进行分裂。可选值有“Auto”、“All”、“Sqrt”、“Log2”和“Onethird”，“Auto”是让算法自己决定该子集的大小，“All”是选择所有特征。

随机种子特征子集选择和自助过程依赖的随机种子，如果取值为0，每次运行得到随机的结果；如果取值非零，相同的随机序列种子，生成的结果相同。

样例

“随机森林”算子在页面展出可视化效果，样例如图5-69所示：



112

图 5-69 随机森林算子可视化效果

5.6 聚类

5.6.1 K-均值

概述

“K-均值”算子用于产生聚类模型，用户在使用时需要指定聚类个数。KMeans算法是基于距离的算法，将所有数据归类到其邻近的中心。被设置为Input角色的列会参与计算。

输入与输出



参数说明

表 5-44 “K-均值”算子参数说明


聚类数聚类个数，默认值为2。

迭代次数默认值为20。

初始模式 l K-Means||在选取初始中心点时，使各个中心点距离尽可能远，这样聚类效果更好。

l Random随机选取初始中心点，无额外关联参数。



113


初始模式步数仅在“初始模式”选取“K-Means||”时填写，默认为5。“初始模式步数”选取过小会导致选取的中心点具有随机性，影响聚类结果；选取过大则影响算法性能。

样例

无。

5.7 评估

5.7.1 应用模型

概述

“应用模型”算子用于使用已生成的模型对数据进行预测，支持回归模型、分类模型和聚类模型。

输入与输出

l 输入：数据集、模型。


参数说明

表 5-45 “应用模型”算子参数说明


预测类型可设置预测方式，支持“分类”、“回归”和“聚类”。该算子支持二分类和大于2的多分类的预测。

选择“分类”时，需要指定一个“分类阈值”参数。

分类阈值仅在“预测类型”为“分类”时设置。

取值范围为“[0,1)”。当样本被预测为正样本的概率大于该参数值时，就将样本归类为正样本。该参数只在二分类时有效。

样例

假设“应用模型”算子的输入如图5-70所示（二分类模型，暂不可展示），选择分类预测，“分类阈值”取值为“0.5”，则运行算子后得到的结果如图5-71所示。其中az列是在设置元数据算子中设为Label和Output的列，probabilitycol列表示样本属于正样



114

本的概率，predictioncol列表示样本终被预测为哪一类。如果是大于2的多分类或者回归预测，则probabilitycol列不会生成。

图 5-70 应用模型算子输入（数据集片段）

图 5-71 应用模型算子运行结果

5.7.2 计算分类指标

概述

“计算分类指标”算子用于对二分类的预测结果进行评估。评估指标包括：AUC、ROC（Receiver Operating Characteristic）、PR（Precision and Recall）、精确率（Precision）、召回率（Recall）、F1测量（F1Measure）、混淆矩阵（ConfusionMatrix）。

对于一个二分类问题，要求将实际样本分成正样本（positive）或负样本（negative），则预测结果会出现以下四种情况：

表 5-46 二分类问题的预测结果

实际预测结果

正样本正样本真正样本（TP）

负样本正样本假正样本（FP）

负样本负样本真负样本（TN）



115

实际预测结果

正样本负样本假负样本（FN）

例如下述场景：某班有60名男生，40名女生，共100人。目标要找出所有的女生。现在某人挑选出了50人，其中有35名女生，15名男生，则：

l 真正样本（TP）：35（预测正确的女生）

l 假正样本（FP）：15（误当女生预测的男生）

l 真负样本（TN）：45（预测正确的男生）

l 假负样本（FN）：5（误当男生预测的女生）

可得到以下标量来评估这次的分类工作：

l 精确率：Precision=TP/(TP+FP)

l TPR（召回率）：Recall=True Positive Rate（TPR）=TP/(TP+FN)

l FPR：False Positive Rate(FPR)=FP/(FP+TN)

l PR曲线：以Precision为y轴，Recall为x轴绘制得到的曲线。

l ROC曲线：以TPR为y轴，FPR为x轴绘制得到的曲线。

l F1测量：F1Measure=2TP/(2TP+FP+FN)

l AUC数据：PR曲线下方的面积值和ROC曲线下方的面积值。

说明

要计算这些指标，测试数据集中需要包含Target列，该列数据的第二个Nominal值代表正样本。

输入与输出



参数说明

表 5-47 “计算分类指标”算子参数说明


分类类型指定分类的类型，目前支持二元分类。

指标数据聚合点个数

默认值：2000。该参数主要用于“向下采样”，减少绘制曲线（ROC曲线、PR曲线等）的点数。

假如输入的样本有10000个，“指标数据聚合点个数”取“0”，则“向下采样”不会发生，意味着会有大概10000个点（不计重复的）参与曲线的绘制。但事实上，只需几千个点就能将曲线绘制出来；假如“指标数据聚合点个数”取“2000”，使用“向下采样”，则参与绘制曲线的点不会超过2000个。



116


输出AUC数据 l 不勾选，不输出AUC数据。

l 勾选，输出AUC数据。

输出ROC曲线数据

l 不勾选，不输出ROC曲线数据。

l 勾选，输出ROC曲线数据。

输出PR曲线数据 l 不勾选，不输出PR曲线数据。

l 勾选，输出PR曲线数据。

输出精确率数据 l 不勾选，不输出精确率数据。

l 勾选，输出精确率数据。

输出召回率数据 l 不勾选，不输出召回率数据。

l 勾选，输出召回率数据。

输出F1测量数据 l 不勾选，不输出F1测量数据。

l 勾选，输出F1测量数据。

输出混淆矩阵数据

l 不勾选，不输出混淆矩阵数据。

l 勾选，输出混淆矩阵数据。

样例

假设该算子的输入如图5-72所示，则ROC、Precision的结果如图5-73、图5-74所示。

图 5-72 计算分类指标算子输入片段



117

图 5-73 计算分类指标算子输出片段（ROC）

图 5-74 计算分类指标算子输出片段（Precision）

5.8 回归

5.8.1 线性回归

概述

“线性回归”算子用于产生线性回归模型（针对回归问题）。

线性回归是利用数理统计中的回归分析，来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。



118

变量的相关关系中为简单的是线性相关关系，设随机变量与变量之间存在线性相关关系，则由试验数据得到的点将散布在某一直线周围。可以理解为基础数学里的线性函数。

用户在使用时需要指定数据的Target字段，以及可能有的ID、Rejected字段。

输入与输出



参数说明

表 5-48 “线性回归”算子参数说明


回归方法线性回归算法需要计算一个模型参数，即回归系数。“回归方法”给用户提供了三种计算模型参数的方法：“SGD”、“Lasso”和“Ridge”。

l SGD梯度下降方法，不进行任何正则化的处理。

l Lasso使用L1正则化，这种方式下收敛速度较快，但容易过拟合。

l Ridge使用L2正则化，这种方式相对于L1可以有效地避免过拟合，但速度较慢。

迭代次数默认值：10。线性回归模型需要运行的大迭代次数。

迭代步长默认值：0.1。初始步长，即模型的第1步的步长，后续步长会根据所采取策略不同而做出相应调整。步长越小收敛速度越慢，但如果步长太大，则容易造成难以收敛的情况。

归一化因子 “回归方法”为“SGD”时无需设置。

正则化因子，默认值：0.01。

每次迭代的数据比例

默认值：1。每轮迭代随机选取指定比例的样本，用于计算梯度下降，默认为1，即不采样。

样例

无。



119

6 常见问题

6.1 机器学习服务是什么？机器学习服务，即Machine Learning Service，简称MLS，是一项数据挖掘分析平台服务，旨在帮助用户通过机器学习技术发现已有数据中的规律，从而创建机器学习模型，并基于机器学习模型处理新的数据，为业务应用生成预测结果。

6.2 机器学习服务可以做什么？机器学习服务应用于海量数据挖掘分析场景。

l 市场分析

商场从顾客消费记录中找出某类顾客群的共有特征（兴趣、收入水平和消费习惯等），分析出什么样的顾客买什么产品，从而调整市场策略。

l 定向推荐

银行从客户的个人财务状况信息中分析客户特征，定向推荐合适的产品（贷款项目、理财产品），以小代价获取大收益。

l 欺骗检测

保险公司分析投保人的历史行为数据，建立欺骗行为模型，识别出假造事故骗取保险赔偿的投保人。

6.3 机器学习服务的优势有哪些？机器学习服务可降低机器学习使用门槛，提供可视化的操作界面来编排机器学习模型的训练、评估和预测过程，无缝衔接数据分析和预测应用，降低机器学习模型的生命周期管理难度，为用户的数据挖掘分析业务提供易用、高效、高性能的平台服务。

l 易用性强，技术门槛低

内置分类、回归、聚类、数据处理等常用建模算子，用户通过拖拽式操作即可在可视化的工作流编排界面数据建模，降低建模难度。

l 可视化操作，直观高效

实现数据可视化，内置丰富的图表类型，不同的数据可以选择不同的图表类型进行展示，所见即所得，提升数据探索效率。

机器学习服务用户指南 6 常见问题


120

l 模型应用

提供“模型应用”算子，支持在工作流中导入训练完成的模型，提供批量预测的能力。

6.4 如何使用机器学习服务？

使用机器学习服务，首先要创建MLS实例，然后访问MLS实例的工作界面，创建MLS数据挖掘方案，如图6-1所示。

图 6-1 MLS 使用流程

6.5 如何访问机器学习服务实例工作界面？

用户需要进入MLS管理控制台，在“MLS实例管理”页面中查看MLS实例，单击待访问实例所在行右侧“访问”，访问MLS实例的工作界面。

6.6 如何准备机器学习服务的数据源？

MLS与MRS集群无缝配合，可以从MRS集群中的HDFS或Hive组件中直接读取数据。MRS集群的数据源来源于OBS（对象存储服务），并支持将OBS中的数据导入至HDFS中。

用户需要将本地数据上传至OBS系统，通过MRS集群将OBS中的数据导入至HDFS中，在使用MLS时，直接从HDFS中读取数据。

6.7 机器学习服务支持哪些格式的数据源？

机器学习服务支持以下格式的数据源：

l Hive表。

l 3种HDFS文件格式：“Parquet”、“JSON”和“CSV”。

6.8 机器学习服务使用哪些安全防护？

机器学习服务基于VPC来控制用户、实例的网络安全隔离。用户对实例的访问则采用了SSL安全连接和安全算法套件，支持双向数字证书认证。

同时在每个实例中对节点的操作系统进行安全加固，提高数据安全性。

6.9 是否支持实例扩容？

MLS实例当前所触发的计算任务都在对应的MRS集群中完成，MLS实例本身暂不提供扩容能力，但能够基于MRS集群完成计算能力的扩容。



121

6.10 无法成功创建机器学习服务实例时怎么处理？

检查原因

检查用户是否已经没有配额创建新的机器学习服务实例。

联系服务人员

如果无法确定原因或解决问题，请联系公有云运维人员。

6.11 无法访问机器学习服务实例时怎么处理？

检查原因

l 请检查MLS实例状态是否正常。

l 如果是在互联网环境无法连接，还需要检查以下可能导致异常的原因：

– 用户网络是否与互联网可以正常连通。

– 用户网络防火墙策略是否限制了访问。

– 用户网络是否需要通过代理才能访问互联网。

请联系网络管理员解决。

联系服务人员

如果无法确定原因或解决问题，请联系公有云运维人员。



122

A 修订记录

发布日期修改说明

2017-05-05 第一次正式发布。

机器学习服务用户指南 A 修订记录


123

用户指南 - developer-res-cbc-cn.obs.cn-north-1...

Documents

Transcript of 用户指南 - developer-res-cbc-cn.obs.cn-north-1...