工业大数据分析集成学习教学讲义.docx
《工业大数据分析集成学习教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析集成学习教学讲义.docx(4页珍藏版)》请在第一文库网上搜索。
1、任务6.4集成学习任务概述集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等,其一般结构是:先产生一组“个体学习器”,再通过某种策略将他们结合起来。Bagging基于自主采样法,对给定的数据集,先随机选取一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过多次随机采样操作,可得到一个采样集,然后基于次采样集训练模型,再将多个模型进行结合。Boosting是一组可将弱学习器提升为强学习器的算法,其先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到
2、更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复,直至基学习器模型达到事先指定的值,最终将这些基学习器进行加权组合。本节以Bagging算法来演示案例实现过程。当确定好使用某一算法进行模型训练时,可以通过Bagging进一步提升该算法的性能。给定一个弱学习算法和一个训练集,随机选择,各轮训练集相互独立,将该回归学习算法使用多次得出预测函数序列,进行平均值计算,最后结果准确率将得到提高。数据要求:必须设置因变量,且因变量必须是连续型(数值);必须设置自变量,自变量可以是连续型(数值)也可以是离散型(名词)。通过本任务的学习:(1)能够构建Bagging集成学习算法模型对工业大数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 集成 学习 教学 讲义