工业大数据分析集成学习教学讲义.docx
任务6.4集成学习任务概述集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等,其一般结构是:先产生一组“个体学习器”,再通过某种策略将他们结合起来。Bagging基于自主采样法,对给定的数据集,先随机选取一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过多次随机采样操作,可得到一个采样集,然后基于次采样集训练模型,再将多个模型进行结合。Boosting是一组可将弱学习器提升为强学习器的算法,其先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复,直至基学习器模型达到事先指定的值,最终将这些基学习器进行加权组合。本节以Bagging算法来演示案例实现过程。当确定好使用某一算法进行模型训练时,可以通过Bagging进一步提升该算法的性能。给定一个弱学习算法和一个训练集,随机选择,各轮训练集相互独立,将该回归学习算法使用多次得出预测函数序列,进行平均值计算,最后结果准确率将得到提高。数据要求:必须设置因变量,且因变量必须是连续型(数值);必须设置自变量,自变量可以是连续型(数值)也可以是离散型(名词)。通过本任务的学习:(1)能够构建Bagging集成学习算法模型对工业大数据进行分析。任务实现模型构建流程如下:步骤1:建模区分别拖入样例数据节点、设置角色节点和Bagging回归节点,构建如下模型,如图6-4-1所示:图6-4-1集成学习-Bagging回归构建模型步骤2:“样例数据”节点配置如下,如图6-4-2所示:样例数据×选捍数据数据内容数据结构1sTeachereFuzzyComprahens.点击查看功循说明®确定取清图6-4-2集成学习-样例数据-选择数据步骤3:“设置角色”节点配置如下,如图6-4-3所示:全部O字若Oet角色煌定批处理自交C3日期O文本C)索字戌名Q»1Sf5fit*»»角色if1注移除>OMYCTMYCTR(N白虹X<OMMINMMINVSI1里(INT)白虹X«OMMAXMMAXIKg(INT)U虹XOCACHCACHR(INUft>XOCHMINCHMIN超坦(INT)O变量XOCHMAXCHMAX或OS(INT)白打×OC1MfcMRSS(INT)因变*XMOft<1/0>O1共1页,IOv共7妥图6-4-3集成学习-设置角色步骤4:“Bagging回归”节点配置如下,首先双击“Bagging回归”节点在内部拖入一个基算法,然后进行参数配置,如图6-4-4所示。图6-4-4集成学习-Bagging回归-参数配置参数配置参数信息配置情况:【抽样比例】:设置训练时的样本比例,取值范围小于等于100%,默认值为90%o【迭代次数】:设置迭代次数,整型,取值范围:1,1000,默认值为10。【随机种子】:设置随机种子,默认值为12345678。步骤5:Bagging回归结果Bagging回归模型,包含多个基回归模型。图6-4-6集成学习集成学习-Bagging回归结果回归结果数据集,最后一列属性"prediction”为回归预测列。运行结果说明:通过以上图片,完成学习集成学习的建模方法,实操了Bagging算法来演示案例实现的过程。集成学习(ensemb1eIearning)通过构建并结合多个学习器来完成学习任务。如何产生“好而不同”的个体学习器,是集成学习研究的核心。集成学习的思路是通过合并多个模型来提升机器学习性能,这种方法相较于当个单个模型通常能够获得更好的预测结果。这也是集成学习在众多高水平的比赛如奈飞比赛,KDD和Kagg1e,被首先推荐使用的原因。一般来说集成学习可以分为三大类:用于减少方差的bagging,用于减少偏差的boosting,用于提升预测结果的Stacking0