工业大数据分析特征处理方法教学讲义.docx
任务3.2特征处理方法任务概述本节以特征工程处理中的两种常用方法一一分箱和变量选择为例,介绍特征处理方法的操作流程。任务实现任务3.2.1分箱分箱是一种将连续型数据离散化的方法,分箱法通过考察“邻居”(即周围的值)来平滑存储数据的值,存储的值被分到一些“桶”或“箱”中。分箱节点提供了按分箱宽度、按分箱数、按分位数、按平均值/标准差四种分箱方式。分箱可根据指定字段的特定分箱方式新生成具有划分类别的一个或多个新字段,新字段的名称为原名称加扩展后缀_BIN。分箱节点的图标如图3-2-1所示。图3-2-1分箱图标参数说明打开分箱节点,查看相关参数,如图3-2-2所示。分精玄值wind-speedgeneratOJSPeedpowerVViCd.directionwind_direction_meanyaw_po$it»onyaw_speedpitch1_speedPitCh2_SPeed分制方式ffiS_7选择受量字段名类型分箱飙移除OPitCh1angIe欢皿(DOUB1E5XOpitch2.ang1e教fi5i(D0UB1E:5×Opitch3.ng1e效鲤(DOUB1E5X百壬查看功i½汜明0图3-2-2分箱相关参数节点参数与节点配置页面对应说明,如表3-2-1所示。表3-2-1分箱参数说明参数类型描述选择变量列表框用户指定需要分箱的字段列分箱方式下拉框分箱宽度:选择按固定宽度分箱需设置分箱宽度分箱数:选择按分箱数需设置分箱数分位数:选择按分位数需设置分位数平均值/标准差:选择按平均值/标准差需设置平均值+-标准差的倍数操作步骤步骤1:打开“数据管理”下拉列表向建模区拖入“文件输入”节点模块,打开“特征工程”下拉列表拖入“分箱”节点模块,连接两个节点模块,形成以下的逻辑关系,构建如下模型,如图3-2-3所示。步骤2:“文件输入”节点配置如下,点击“文件上传按钮”,选择afengjidata_t1demo2”数据源上传数据文件,点击“确定”完成文件输入节点的配置,如图3-2-4所示。fengjidatat1demo2×鳏数据文件上传m1全部洌除数据内容数宪结构Csvfengiidatat1demo2.,.w-timeWinaspeedgeneratorspeed2015/11/40:001.0965842811.2368897452015/11/40:010,9453776631.2634801842015/11/40:010.9084981.2435373552015/11/41440.6761561241.2501849652015/11/41440.7056598541.243537355I1-2015/11/41450.8568664721.243537355,分区记录条数100000点击查看功能说明®图3-2-4分箱文件输入节点配置步骤3:“分箱”节点配置如下:从左侧选择分别选择“pitch1ang1e”、“pitch2_ang1e"、"PitCh3_ang1e”几个选项,分箱宽度选择5,如图3-2-5所zjOIQ分知方式分为克境,嚅壬功能说明©立走取消图3-2-5分箱节点配置模型运行结果参考下图,如图3-2-6所示。WiCd-SPadgenerator_speedpowerWind.directionwind-direction-menyawspostionyawspeedpitch1oaseedpitch2aspeed运行结果说明:pitch1ang1e.BIN>pitch2_ang1eBIN>pitch3ang1eBIN为新产生的列。如图3-2-7所示。1.3369-0.04-0.561.644501.33691.641.521.84501.3369-124-0.081.64501.3231-040.12-048450一一一一pitch3_ngS_DCgroupfrozen_statPiKh1angIe_BINpitch3_ang1e_BINpitch2_ang1e_BIN1.76440111-0.08440111-0.52440111-0.84450111-0.32450111图3-2-7分箱模型新产生的列任务3.2.2变量选择变量选择旨在从原始变量中选出一些最有效变量以降低数据集维度,用于提高学习算法性能。变量选择方法适用于有监督学习。变量选择节点的图标如图3-2-8所示。交量选择图3-2-8变量选择图标参数说明打开变量选择节点,查看相关参数,如图3-2-9所示。变民选择×字段名特征类型瞬OOwindspeedVVind_SPeed数值型(DOInXOgeneratorgenerators数值至(DoUEXOWind_directiwind-directi25<S2(DOU(XQ©yawpositioyawj>OSitio1数®(DOUfX全部O字;?OQ字段名*应变量类型移用Qfrozenstate1frozen-state1?型Xtimepoweryaw-speedPitCh1ang1epitch1mOt。一tmpaccxacc_yenvirOnmentjmP参数没查m""方法选择定错集点壬查看5能说朗®ift硝图3-2-9变量选择相关参数节点参数与节点配置页面对应说明,如表3-2-2所示。表3-2-2变量选择参数说明参数类型描述特征变量列表框选择变量作为特征,至少选择1个变量响应变量列表框选择1个响应变量方法选择下拉框选择变量选择的方法,支持皮尔逊卡方、似然比卡方、Cramer.1ambda等方法操作步骤步骤1:打开“数据管理”下拉列表向建模区拖入“文件输入”节点模块,打开“数据处理”下拉列表拖入“数值型属性变换”节点模块,打开“特征工程”下拉列表拖入“变量选择”节点模块,连接三个节点模块,形成以下的逻辑关系,构建如下模型,如图3-2TO所示。fengji_data_t1_.JfS21性交揆卜三.×,*®Ifa'':图3-2-10变量选择构建模型步骤2:“文件输入”节点配置如下,点击“文件上传按钮”,选择fengji_data_t1_demo2v数据源上传数据文件,点击“确定”完成文件输入节点的配置,如图3-2T1所示。fengjidatat1demo2点击查看功能说明®畸喻步骤3:“数值型属性变换”节点配置如下,左侧选择“frozenstate”进入右侧选择列表中,如图3-2T2所示。图3-2-12变量选择-数值型属性变换步骤4:“变量选择”节点配置如下,如图3-2-13所示。全出。字O数值宁段名响由娈Ia类型Ofrozen.StMe1froze-sute1×M方;S电宦兔"J图3-273变量选择节点配置模型运行结果参考下图,如图3-2-14所示:图3-2-14变量选择模型运行结果运行结果说明:变量选择旨在从原始变量中选出一些最有效变量以降低数据集维度,用于提高学习算法性能。