《工业大数据分析相关分析教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析相关分析教学讲义.docx(14页珍藏版)》请在第一文库网上搜索。
1、任务4.1相关分析任务概述相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。本任务主要描述相关分析中相关系数和典型相关分析的使用。本任务中的案例使用的数据集是某水厂投药控制系统实时采集的数据信息,数据均为瞬时测量值,包括历史原水水质数据、原水流量数据、沉淀池浊度和混凝剂投加量(PAC耗)数据等,共6166个样本。数据文件:工业用水处理投药量数据.csv。数据集格式及属性字段说明:字段名称数据样例数据类型字段描述时间2013/8/201:00字符型瞬时测水时间原水PH7.15数值型(DOUB
2、1E)未处理水PH值原水浊度720.53数值型(DOUB1E)未处理水的浊度出水浊度0.78数值型(DOUB1E)沉淀池出水浊度取水量19560数值型(INT)原水的流速PAC耗0.27数值型(DOUB1E)混凝剂投加量,即PAC的消耗数据预览:,-*pXMPACtt201378/206007.1St.156501382OB2OTQQ7.U29811.1o101201泗22田M1OTtssao111012O137V/226OOM129290.7557012049201i227M3M.1SOTt5530111S4M32288八9W370.7M9011144201R23264827ii076567
3、1Mdi201WnM8ZTW10.71552120iwn6M27931OTt51?01072358M8Qg5W10142201W236O008m3iOTtSOM121462OU2OOM8OW112MW23ftOO64627A316237US.7620U2117OOM1055WOM35201W231t1C064117SSOOW24通过本任务的学习:(1)能够对工业大数据中的变量进行相关系数分析;(2)能够对工业大数据中的变量进行典型相关分析。任务实现任务4.1.1相关系数相关系数是用来反映变量之间的相关关系的密切程度的统计指标。相关系数的取值一般介于T和1之间。当相关系数为正的时候,意味着变量之
4、间是正相关的;当相关系数为负的时候,意味着变量之间是负相关的。洞察中只支持展示40个变量间的相关关系矩阵。对水进行净化处理要经过混合、絮凝、沉淀、过滤和消毒五个阶段,絮凝沉淀是水处理的初始环节,是悬浮颗粒、胶体等杂质处理的必需工艺。影响絮凝效果的因素很多,包括原水流量、原水浊度、原水PH值、原水温度、混凝剂投加量和原水中藻类等。通过混凝和沉淀就可以减少水中悬浮颗粒的数量和大小,也就能实现浊度降低,投药控制的目的是使沉淀池的出水浊度符合相关标准。水厂在抽取原水后会进行化学预氧处理,达到除去微量有机污染、除藻、除臭味、控制氯化消毒副产物、氧化助凝和除去铁锦等目的。水厂选用混凝剂是PAC,添加混凝剂
5、后的水在反应池进行絮凝。相关系数1图4-1-1相关系数节点相关系数分析操作步骤如下:步骤1用户登录算法建模工具产品,打开“数据分析”,打开“挖掘分析”百工亚大款提处理分析应用实训皇CaTIndustria1BigDataProcessAna1ysisandApp1ication1abi11算法建模园可视化分析挖掘分析寿耀馍工具膏去首页用户管理我的挖底11138模型列表我的论症I111翊)论尼5图4-1-2挖掘分析模型步骤2:新建挖掘分析模型,在界面左侧菜单“数据管理一输入”菜单下,将“文件输入”节点拖至右侧建模区,如图4-1-3所示。图4-1-3文件输入双击“文件输入”图标,打开文件输入界面,
6、如图4-1-4所示。文件输入选择敢据文件上传全部Ift燥数据内容被揖结构分区记WIOOOOO点击查看功能说明取酒图4-1-4文件输入界面单击“文件上传”按钮,选择待上传的文件“工业用水处理投药量数据.CSV”,单击“打开”按钮,如图4-1-5所示。系统将弹出读取配置窗口,如图4-1-6所示,单击“确定”完成文件读取配置。文件输入选择期S文件上传S1除全部i舞I无r-S!据内容SGS结13读取XGB23121icteQ三淖三号Q遑期表决一建专司名文件诵定取消分区记录条方IOOQOO点击查看功能说明诵全取消图4-1-6文件上传-读取配置可在文件输入节点中查看读取的数据内容及数据结构,如图4-1-7
7、所示。单击“确定”按钮,完成文件输入节点配置。文杵喻入X文件上传删赊询删赊数据内容数据结枸,.口k用水处理陋量数据时向原水PH葭水浊度2013/8/206:0073623462013/8/207:007.12628.812013/8/225:006.91294.812013/8/226:00691293.292013/8/2319:0068184.95C一分IS记整验100000点主查看功明fe确步骤3:在界面左侧菜单“统计分析”菜单下,将“相关系数”节点拖至右侧建模区,如图4-1-8所示。工用水处理投.相关军数图4-1-8相关系数节点步骤4:构建模型,关系构建如图4-1-9所示,相关系数节点
8、的D端口为数据集,G端口为结果数据集。图4-1-9相关系数构建模型步骤5:在右侧建模区双击“相关系数”图标,进入相关系数配置界面,如图4-1-10所示。相关系数取水PACH原水PH出水M图4-1-10相关系数配置界面将左侧的“原水PH”、“原水浊度”、“出水浊度”属性依次选择到右侧,如图图4-1TI相关系数-节点配置单击“确认”,完成配置。模型运行完成后,页面将自动跳转到洞察区,单击“相关系数”节点,可以得到“图表”和“数据集”的查看结果,如图4TT3和图4TT4所示。图4TT3运行结果-图标图4TT4运行结果-数据集任务4.1.2典型相关分析典型相关分析是研究两组变量之间相关关系的一种多元统
9、计分析方法。它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。典型相关分析A3Q9图4TT5典型相关分析节点典型相关分析操作步骤如下:步骤1:用户登录算法建模工具产品,打开“数据分析”,打开“挖掘分析”模型,如图4-1-16所示。工亚大戢提处理分析应用实训室CCITIndustria1BigDataProcessAna1ysisandApp1ication1abI1I算法建模画可视化分析挖掘分析制耀模工具寄去首页数据接人工数据管理用
10、户管理我的挖泥11138=y模型列表单元2-知识点我的挖掘I111图4-1-16挖掘分析模型步骤2:新建挖掘分析模型,在界面左侧菜单“数据管理一输入”菜单下,将“文件输入”节点拖至右侧建模区,如图4TT7所示。图4-1-17文件输入双击“文件输入”图标,打开文件输入界面,如图4-1-18所示。文件输入选择敢据文件上传全部Ift燥数据内容被揖结构分区记WIOOOOO点击查看功能说明取酒图4-1-18文件输入界面单击“文件上传”按钮,选择待上传的文件“工业用水处理投药量数据.csv”,单击“打开”按钮,如图4-1-19所示。系统将弹出读取配置窗口,如图4-1-20所示,单击“确定”完成文件读取配置
11、。图4-1-20文件上传-读取配置可在文件输入节点中查看读取的数据内容及数据结构,如图4-1-21所示。文件喻入口X选择触文件上传删除全部删除点主查看功用G)图4-1-21数据内容和数据结构点击“确定”按钮,完成文件输入节点配置。步骤3:在界面左侧菜单“统计分析”菜单下,将“典型相关分析”节点拖至右侧设计区,如图4-1-22所不。N用水处理投.图4-1-22典型相关分析节点步骤4:构建模型,关系构建如图4-1-23所示,典型相关分析节点的D端口为数据集,G端口为结果数据集。工业用水处理投姻相关分析图4-1-23典型相关分析构建模型步骤5:在右侧建模区双击“典型相关分析”图标,进入典型相关分析节点配置界面,如图4-1-24所示。相关分析1ftR(*-PACMCB=!8图4-1-24典型相关分析配置界面将左侧的“原水PH”、“原水浊度”属性选择到右侧上面表格中,“出水浊度”、“PAC耗”属性选择到右侧下面表格中,即选择“原水PH”和“原水浊度”为第一组变量,“PAC耗”和“出水浊度”为第二组变量。如图4-1-25所JO典型相关分析X.SSJs幻蛤三明取图4-1-25典型相关分析-节点配置单击“确认”,完成配置。步骤6:单击建模区右上角“运行”按钮,如图4-1-26所示。图4-1-26运行模型运行完成后,页面将自动跳转到洞察区,单击“典型相关分析”节点,图4-1-27运行结果-图表