工业大数据分析特征处理方法教学讲义.docx
《工业大数据分析特征处理方法教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析特征处理方法教学讲义.docx(9页珍藏版)》请在第一文库网上搜索。
1、任务3.2特征处理方法任务概述本节以特征工程处理中的两种常用方法一一分箱和变量选择为例,介绍特征处理方法的操作流程。任务实现任务3.2.1分箱分箱是一种将连续型数据离散化的方法,分箱法通过考察“邻居”(即周围的值)来平滑存储数据的值,存储的值被分到一些“桶”或“箱”中。分箱节点提供了按分箱宽度、按分箱数、按分位数、按平均值/标准差四种分箱方式。分箱可根据指定字段的特定分箱方式新生成具有划分类别的一个或多个新字段,新字段的名称为原名称加扩展后缀_BIN。分箱节点的图标如图3-2-1所示。图3-2-1分箱图标参数说明打开分箱节点,查看相关参数,如图3-2-2所示。分精玄值wind-speedgen
2、eratOJSPeedpowerVViCd.directionwind_direction_meanyaw_po$itonyaw_speedpitch1_speedPitCh2_SPeed分制方式ffiS_7选择受量字段名类型分箱飙移除OPitCh1angIe欢皿(DOUB1E5XOpitch2.ang1e教fi5i(D0UB1E:5Opitch3.ng1e效鲤(DOUB1E5X百壬查看功i汜明0图3-2-2分箱相关参数节点参数与节点配置页面对应说明,如表3-2-1所示。表3-2-1分箱参数说明参数类型描述选择变量列表框用户指定需要分箱的字段列分箱方式下拉框分箱宽度:选择按固定宽度分箱需设置分
3、箱宽度分箱数:选择按分箱数需设置分箱数分位数:选择按分位数需设置分位数平均值/标准差:选择按平均值/标准差需设置平均值+-标准差的倍数操作步骤步骤1:打开“数据管理”下拉列表向建模区拖入“文件输入”节点模块,打开“特征工程”下拉列表拖入“分箱”节点模块,连接两个节点模块,形成以下的逻辑关系,构建如下模型,如图3-2-3所示。步骤2:“文件输入”节点配置如下,点击“文件上传按钮”,选择afengjidata_t1demo2”数据源上传数据文件,点击“确定”完成文件输入节点的配置,如图3-2-4所示。fengjidatat1demo2鳏数据文件上传m1全部洌除数据内容数宪结构Csvfengiida
4、tat1demo2.,.w-timeWinaspeedgeneratorspeed2015/11/40:001.0965842811.2368897452015/11/40:010,9453776631.2634801842015/11/40:010.9084981.2435373552015/11/41440.6761561241.2501849652015/11/41440.7056598541.243537355I1-2015/11/41450.8568664721.243537355,分区记录条数100000点击查看功能说明图3-2-4分箱文件输入节点配置步骤3:“分箱”节点配置如下:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 特征 处理 方法 教学 讲义