工业大数据分析聚类算法教学讲义.docx
《工业大数据分析聚类算法教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析聚类算法教学讲义.docx(6页珍藏版)》请在第一文库网上搜索。
1、任务6.3聚类算法任务概述聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其原理是:组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的组内的相似性(同质性)越大,组间差别越大,聚类就越好。聚类分析可以建立宏观的概念,发现数据的分布模式,是知识发现的基础。本节以聚类分析中的模糊c均值为例来讲解相关案例实现过程。模糊聚类分析作为无监督机器学习的主要技术之一,是用模糊理论对重要数据分析和建模的方法。建立了样本类属性的不确定性描述。在众多模糊聚类算法中,模糊C均值算法应用最广泛且较为成功。模糊C均值聚类算法通过优化目标函数得到每个样本点对所有类中心的隶属度,从
2、而决定样本点的类属以达到自动对样本数据进行分群的目的。数据格式不支持设置类属性(输出);(输入)支持离散型(名词)属性和连续型(数值)属性。参数说明模糊C均值点击查看功能说明确定取消图6-3-1模糊C均值参数设置具体说明参见表6-7:表6-7模糊C均值参数设置参数类型描述数据标准化下拉框包含无处理、归一化和标准化3种方式,其中:无处理是对原始数据不进行标准化操作,标准化的方式为原数据与均值的差除以标准差。归一化方式为(x-最小值)/(最大值-最小值)*(指定上限值-指定下限值)+指定下限值,此方式需要用户设置一个范围区间,自定义区间的下限值和上限值,该区间默认为0,1聚类个数文本框用户自定义的
3、聚类个数,通常这个数值设置不会太大。聚类个数范围为大于等于2的正数,默认值为3模糊度文本框用户自定义的模糊度,默认值为1.5最大迭代次数文本框设置算法最大迭代次数以控制算法迭代停止。当达到设置的迭代次数后停止迭代。最大迭代次数的范围为正数,默认值为100收敛容差文本框设置收敛容差以控制算法迭代停止,对于任意一个类,当前后两次类中心点的距离小于等于收敛容差时停止迭代。这里通过欧式距离来计算样本点之间的距离大小。收敛容差的范围为大于0小于等于0.01的正数,默认值为0.01初始化方法下拉框通过random方式用来确认初始聚类的中心点。需要用户指定一个随机种子,指定一个随机种子则对应若干个初始样本。
4、随机种子的范围为大于0小于1.0E8的正数,默认值为123456是否显示变量重要性复选框用户选择是否分析每个变量对于聚类类结果的影响程度,如果选择是,则在洞察中显示参与建模的每个变量对于模型的贡献程度情况本案例使用的数据集是某水厂投药控制系统实时采集的数据信息,数据均为瞬时测量值,包括历史原水水质数据、原水流量数据、沉淀池浊度和混凝剂投加量(PAC耗)数据等,共6166个样本。数据文件:投药量数据.csv。数据集说明(共137行,6列),同表6-2。通过本任务的学习:(1)能够构建聚类算法模型对工业大数据进行分析。任务实现具体操作如下:步骤1:建模区分别拖入“文件输入”节点、“设置角色”节点和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 算法 教学 讲义