《工业大数据分析分类算法教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析分类算法教学讲义.docx(7页珍藏版)》请在第一文库网上搜索。
1、任务6.5分类算法任务概述分类是数据挖掘的一个重要技术,是数据挖掘中最有应用价值的技术之一,其应用遍及社会各个领域。分类任务就是通过学习得到一个目标函数(通常也称作为分类模型,即分类器),把每个属性集映射到一个预先定义的类标号。分类和回归都可以用于预测。和回归方法不同的是,分类的类标号是离散属性,而预测建模的回归的目标属性是连续的。本节以随机森林分类为例讲述分类算法的案例实操过程。图6-5-1随机森林分类图标随机森林算法广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。和决策树类似,随机森林可以处理名词型特征,不需要进行特征缩放处理(如归一化),能够处理特征间相
2、互交互的非线性关系。随机森林支持连续数据或离散数据进行二分类或多分类。数据格式:必须设置类属性(输出),且类属性(输出)必须是离散型(名词);非类属性(输入)可以是连续型(数值)也可以是离散型(名词);参数说明:参数设置决策例个数信息度量方式QB1机神子星否显云变量重要性5gini123456点壬查看功靛浪的他取消图6-5-2随机森林分类-参数设置表6-8随机森林分类-参数说明参数类型描述最大深度文本框树的最大深度,整型,取值范围:0,8),默认值为5决策树个数文本框此参数用以设定随机森林中投票器(决策树)的个数,整型,取值范围:1,8),默认值为20随机种子文本框建模中用以生成随机数的随机种
3、子,整型,随机种子的范围为大于0小于1.0E8的正数,默认值为123456信息度量方式下拉框选择信息度量方法,字符型,取值范围:“gini”、“entropy”,默认值为“gin”特征选择方法下拉框生长树时,选取特征列的方法,例如:Onethird表示随机选取1/3的列进行建模,文本型,取值范围:“auto”、“a11”、“sqrt”、“1og2”、“Onethird”,默认值为“aut。”是否显示变量重要性复选框用户选择是否分析每个变量对于分类结果的影响程度,如果选择是,则在洞察中显示参与建模的每个变量对于模型的贡献程度情况本段中所用数据为风机结冰故隙数据:fengji_data_t1_de
4、mo2.csv0数据集案例背景:叶片结冰是风电领域的一个全球范围难题。低温环境所导致的叶片结冰、材料及结构性能改变、载荷改变的问题等,对风机的发电性能和安全运行造成较大的威胁。随着风机的设计功率不断提升,现有风机塔筒高度也在不断增长,因此即使在北部沿海和山区地区,冬季里大量风机都会触碰到较低的云层,在低温和潮湿环境下非常容易结冰。目前风机运行的实时数据主要由SCADA系统进行存储,对叶片结冰故障的监测手段主要是比较风机实际功率与理论功率之间的偏差,当偏差达到一定值后会触发风机的报警和停机。然而,触发报警时往往已经发生叶片大面积结冰现象,在这样的情况下运行会增加叶片折断损坏的风险。虽然许多新型风
5、机都设计了自动除冰系统,但是实际应用中面临的挑战是很难对结冰的早期过程进行精确预测,以便能够尽早开启除冰系统。对结冰过程的预测准确度决定了除冰系统的效率、风机的效率损失和风机运行的风险。数据集字段说明:表6-9数据集字段说明字段名称数据类型数据样例解释说明time字符型2015/11/40:00数据采集时间Win(1SPeed数值型(DOUB1E)1.096584281风速generator_speed数值型(DOUB1E)1.236889745发电机转速power数值型(DOUB1E)1.008939网侧有功功率(kw)wind_direction数值型(DOUB1E)1.537073对风角
6、()winddirectionmean数值型(DOUB1E)1.06865325秒平均风向角yaw_position数值型(DOUB1E)-0.62627偏航位置yaw_speed数值型(DOUB1E)-0.03896偏航速度pitch1_ang1e数值型(DOUB1E)0.222222叶片1角度pitch2_ang1e数值型(DOUB1E)0.195556叶片2角度pitch3ang1e数值型(DOUB1E)0.177778叶片3角度pitchispeed数值型(DOUB1E)0.0101叶片1速度pitch2_speed数值型(DOUB1E)0.0203叶片2速度PitCh3_speed数
7、值型(DOUB1E)0.0301叶片3速度pitch1_moto_tmp数值型(DOUB1E)-1.389叶片1变桨电机温度pitch2_moto_tmp数值型(DOUB1E)-1.43叶片2变桨电机温度pitch3mototmp数值型(DOUB1E)-1.35叶片3变桨电机温度acc_x数值型(DOUB1E)-1.02399X方向加速度acc_y数值型(DOUB1E)0.061109y方向加速度environment_tmp数值型(DOUB1E)-0.8947环境温度int_tmp数值型(DOUB1E)-0.92206机舱温度pitch1ng5tmp数值型(DOUB1E)0.969231叶片
8、1上ng5的温度pitch2ng5tmp数值型(DOUB1E)0.629231叶片2上ng5的温度pitch3_ng5_tmp数值型(DOUB1E)0.769231叶片3上ng5的温度pitch1_ng5.DC数值型(DOUB1E)-0.8叶片1ng5充电器直流电流pitch2_ng5_DC数值型(DOUB1E)0.48叶片2ng5充电器直流电流pitch3_ng5_DC数值型(DOUB1E)-0.08叶片3ng5充电器直流电流group数值型(INT)44数据分组标识frozen_state布尔型(BOO1EN)0结冰状态通过本任务的学习:(1)能够构建随机深林分类算法模型对工业大数据进行分
9、析。任务实现具体操作如下:步骤1:建模区分别拖入“文件输入”节点、“设置角色”节点和“随机森林”分类节点,构建如下模型,如图6-5-3所示:文例入设置角色随机森林分类sC-vironmettmp-vind-direon-tch1-moto-tP-powerxc.支量要性后开所R-)分柒网I(Weit1Q)ptch2-mcto-tmp1(O6-)WnA1.040378138-)分尚房3(weight1Q)+ptch2-moto-tmp-1J)Httm4(wet1J)分型掰5(AeiQMIQ)图6-5-7随机森林分类-模拟运行结果运行结果说明:通过以上图片,完成学习分类算法的模型构建流程和方法,本节以随机森林分类为例讲述分类算法的案例实操过程。随机森林就是建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策。这种方法能够有效地提高对新样本的分类准确度。随机森林的方法即对训练样本进行了采样,又对特征进行了采样,充分保证了所构建的每个树之间的独立性,使得结果更准确。