工业大数据分析自动学习教学讲义.docx
任务6.6自动学习任务概述自动学习算法能实现一个数据集的多种算法或多种参数组合的一次性建模,在多种模型下选择和推荐出最佳的模型或者组合得到最优预测结果,轻松实现模型的自动化和智能化学习,大大提升了建模的效率。本节使用自动学习中的分类交叉验证来验证相关案例。图6-6-1分类交叉验证图标交叉验证是一种模型选择方法,将样本的一部分用于训练,一部分样本用于测试。因此过程中不仅考虑了训练误差,同时也考虑了泛化误差。交叉验证有助于从某些候选模型中选择最适合某个学习问题的模型,有助于确定参数使得该模型对解决相应的分类问题最为有效,使得模型在偏差和方差之间寻求到最佳的平衡点。数据格式:必须设置类属性(输出),且类属性(输出)必须是离散型(名词);非类属性(输入)可以是连续型(数值)也可以是离散型(名词)。参数说明:参数配置X表6-11分类交叉验证-参数说明参数类型描述验证次数k文本框指出交叉验证的次数。假设指定为k,则意味着将原始样本分为k份,将每份子集数据分别做一次测试验证集,其余的k-1组子集数据作为训练集,这样会得到k个分类模型,用这k个模型的的准确率平均值作为此固定参数下的分类模型的性能指标。本案例数据模型与任务6.6一致。通过本任务的学习:(1)能够构建分类交叉验证自动学习算法模型对工业大数据进行分析。任务实现具体操作如下:步骤1:建模区分别拖入文件输入节点、设置角色节点和随机森林分类节点,构建如下模型,如图6-6-3所示:fengji.dt.t1.-.数ffiIftSS色分费交叉验证图6-6-3分类交叉验证-构建模型步骤2:双击“分类交叉验证”,进入参数配置界面,如图6-6-4所示:步骤3:在建模区配置一个分类算法,从左侧拖入“随机森林分类”节点,步骤4:点击左上角流程1,进入主建模界面,如图6-6-6所示:步骤5:补充“分类交叉验证”连接,如图6-6-7所示:国I=;S!©QQQq图6-6-7补充连接步骤6:“文件输入”节点配置如下,选择fengji_data_t1_demo2数据集,点击确定如图6-6-8所不:fengjidatat1demo2文件上传题诠全部删除XQ1数据内容sa5cwfenqji-data-t1demo2timewindspeedgeneratorspeed2015/11/40:001.0965842811.2368897452015/11/40:010.9453776631.2634801842015/11/40:010.9084981.2435373552015/11/41440.6761561241.2501849652015/11/41440.7056598541.2435373552015/11/414050.8568664721.243537355口分区记录条数1000点查看功能说明®i"图6-6-8分类交叉验证-文件输入-节点配置步骤7:“属性变换”节点配置如下,点击确定,如图6-6-9所示:数值型区住变换×数值口批所!S作NV咛存.生成新列I字段名名程支帔后类型变换方式移除Awind.speed»froen-sta1frozen.s字形数字特用Xgenerator-,Peed<power«VVinC1direCtiOnwinddirBction-man变换方式详细yw,positionyawspeedPiteh1angIepith2asang1epch3.ng1eV忌住查看功的兑明©步骤8:“设置角色”节点配置如下,点击确定,如图6-6TO所示:设置角色×全越O字苻OSJ值Om期o文本o再号宁/a«»S1角色设定e1Wind_speedwind-speed数酬(DOUBuSxBXtime»e29neratorspegeneratorwspe数值型(DoUB1IXgroupfrozenestate>93powerpowerStttS(DOUB1)SxfiX«e4Wind.directionWind.direction数帆DOUBUX95Wind.directionWind.direction数酬(DoUBuSSSXe6ywj>osit>oyawj>o<tion数值型(DoUB11目SfiXO7yaw-speedyaw-speedSKiS(DOUBUSSfi×O8PitCh1angkPitChI.ang1e数DOUBUSSfiXO9pc2.ang1epch2-ng1e数酬(DOUBUS£fiXe10PiUh3.ang1itch3sang1e双值型DOUBUX算壬壹若H类说明*取消1.图6-6-10分类交叉验证-设置角色-节点配置步骤9:双击“分类交叉验证”节点,对“随机森林分类”节点进行配置如下,点击确定,如图6-6-11所示:随机森林分关×泰教设台点击查看功能说盼©确定取消步骤10:点击右上角运行按钮,流程运行结果如下,如图6-6T2所示:运行结果说明:通过以上图片,我们学习了使用自动学习中的分类交叉验证来验收相关案例。交叉验证是一种用来验证模型性能的统计分析方法,基本思想是:将原始数据进行分组,一部分作为训练集,一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价模型的性能指标。