工业大数据分析集成学习教学讲义.docx

资源ID：555026 资源大小：89.69KB 全文页数：4页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

工业大数据分析集成学习教学讲义.docx

任务6.4集成学习任务概述集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等，其一般结构是：先产生一组“个体学习器”，再通过某种策略将他们结合起来。Bagging基于自主采样法，对给定的数据集，先随机选取一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过多次随机采样操作，可得到一个采样集，然后基于次采样集训练模型，再将多个模型进行结合。Boosting是一组可将弱学习器提升为强学习器的算法，其先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，如此重复，直至基学习器模型达到事先指定的值，最终将这些基学习器进行加权组合。本节以Bagging算法来演示案例实现过程。当确定好使用某一算法进行模型训练时，可以通过Bagging进一步提升该算法的性能。给定一个弱学习算法和一个训练集，随机选择，各轮训练集相互独立，将该回归学习算法使用多次得出预测函数序列，进行平均值计算，最后结果准确率将得到提高。数据要求：必须设置因变量，且因变量必须是连续型（数值）；必须设置自变量，自变量可以是连续型（数值）也可以是离散型（名词）。通过本任务的学习：（1）能够构建Bagging集成学习算法模型对工业大数据进行分析。任务实现模型构建流程如下：步骤1：建模区分别拖入样例数据节点、设置角色节点和Bagging回归节点,构建如下模型，如图6-4-1所示：图6-4-1集成学习-Bagging回归构建模型步骤2：“样例数据”节点配置如下，如图6-4-2所示：样例数据×选捍数据数据内容数据结构1sTeachereFuzzyComprahens.点击查看功循说明®确定取清图6-4-2集成学习-样例数据-选择数据步骤3：“设置角色”节点配置如下，如图6-4-3所示:全部O字若Oet角色煌定批处理自交C3日期O文本C)索字戌名Q»1Sf5fit*»»角色if1注移除>OMYCTMYCTR(N白虹X<OMMINMMINVSI1里(INT)白虹X«OMMAXMMAXIKg(INT)U虹XOCACHCACHR(INUft>XOCHMINCHMIN超坦(INT)O变量XOCHMAXCHMAX或OS(INT)白打×OC1MfcMRSS(INT)因变*XMOft<1/0>O1共1页，IOv共7妥图6-4-3集成学习-设置角色步骤4：“Bagging回归”节点配置如下，首先双击“Bagging回归”节点在内部拖入一个基算法，然后进行参数配置，如图6-4-4所示。图6-4-4集成学习-Bagging回归-参数配置参数配置参数信息配置情况:【抽样比例】：设置训练时的样本比例，取值范围小于等于100%,默认值为90%o【迭代次数】：设置迭代次数，整型，取值范围：1,1000,默认值为10。【随机种子】：设置随机种子，默认值为12345678。步骤5：Bagging回归结果Bagging回归模型，包含多个基回归模型。图6-4-6集成学习集成学习-Bagging回归结果回归结果数据集，最后一列属性"prediction”为回归预测列。运行结果说明：通过以上图片，完成学习集成学习的建模方法，实操了Bagging算法来演示案例实现的过程。集成学习(ensemb1eIearning)通过构建并结合多个学习器来完成学习任务。如何产生“好而不同”的个体学习器，是集成学习研究的核心。集成学习的思路是通过合并多个模型来提升机器学习性能,这种方法相较于当个单个模型通常能够获得更好的预测结果。这也是集成学习在众多高水平的比赛如奈飞比赛，KDD和Kagg1e,被首先推荐使用的原因。一般来说集成学习可以分为三大类：用于减少方差的bagging,用于减少偏差的boosting,用于提升预测结果的Stacking0

注意事项

本文（工业大数据分析集成学习教学讲义.docx）为本站会员（lao****ou）主动上传，第一文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知第一文库网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。