工业大数据分析数据行处理教学讲义.docx
《工业大数据分析数据行处理教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析数据行处理教学讲义.docx(18页珍藏版)》请在第一文库网上搜索。
1、任务2.3数据行处理任务概述本节主要介绍常见的数据行处理的原理和方法,并通过案例实现进行实操演示。数据行处理包括数据过滤和数据排序。数据集选用“工业用水处理投药量数据”。数据过滤在数学建模中占有很重要的地位。它是数学建模的第一步,只有得到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中的数据量往往是巨大的。为了保证所用的方法能够在原始数据的支持下得以实现,必须要对数据进行筛选,使得解决方法简单化。同时,又要保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。应用到计算机行业数据筛选的最终目的就是为数据挖掘做准备。比如,数据是五年时间产生的数据,但是由于去年某公司更换了设备,现
2、在需要分析新老设备的性能。那么需要将这五年的数据进行时间维度的筛选,前四年的数据做为一个数据集,去年更换设备的数据作为另一个数据集。这种操作就是时间维度的一个数据过滤的例子。数据排序是按一定顺序将数据排列,以便数据分析工作者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。在某些场合,排序本身就是分析的目的之一,例如居民用电,国家电网的变电箱中会实时记录每户家庭的用电量,数据会实时同步到国家电网工业大数据库中,此时数据分析者即可使用按地区,按每天的小时能分析出某地区每小时的用户用电量排在前50的家庭。通过本任务的学习
3、:(1)能够对上传到大数据平台中的数据进行数据过滤处理;(2)能够对上传到大数据平台中的数据进行数据排序处理。任务实现2.3.1数据过滤用户可使用数据过滤节点进行数据行的过滤和筛选。保留满足条件时的记录,过滤不符合条件的数据。图2-3-1数据过滤节点数据过滤案例实操步骤如下:步骤1:用户登录算法建模工具产品,打开数据分析,打开或新建挖掘分析模型后,先完成文件输入。将“数据管理”功能下的“文件输入”功能对象添加到建模界面,并上传文件“工业用水处理投药量数据.csv”。步骤2:在挖掘界面左侧”数据处理一行”菜单下,将“数据过滤”节点拖至设计区,构建如下模型,如图2-3-2所示。步骤3:与需要处理数
4、据的节点连接,双击打开节点,如图2-3-3所示。至军O冲QKtf1O日期O文本时间31足以下金睁率O38是以下任分条传故据过我X原水PH*7X:3E*aat取水,PAE图2-3-3数据过滤界面步骤4:界面左侧加载所有列,将需要过滤的列名选至页面右侧,输入过滤条件。本案例选择“原水PH”数据列,过滤条件选择“大于”,值填入“7”,如图2-3-4所不。是以下全部条件O:S足以下任堂笔件故据过渡X出水独度取M1PACM守壬查看动皓氏明定取消图2-3-4数据过滤-过滤条件如界面上方所示,过滤支持两种模式,满足全部条件或满足任意条件。其中前者设置的各个条件是“and”关系,输出的保留记录为满足各个条件的
5、记录交集,除此之外剩余的数据集为删除数据集;后者设置的各个条件是“or”关系,输出的保留记录为满足各个条件的记录并集,除此之外剩余的数据集为删除数据集。图2-3-5所示的过滤条件为“原水PH大于7,同时原水浊度大于100”。满足以下全部条件IO满足以下任3曲点击is.功能说明数据过滤全部O字符。日期0台w0*PHa*出水泡度黎水量PACft图2-3-5数据过滤-条件设置参数信息配置情况:【输出模式工支持两种模式,一种是保留满足全部条件的数据,一种是保留满足任意条件的数据。其中前者设置的各个条件是and关系,输出的保留记录为满足各个条件的记录交集,除此之外剩余的数据集为删除数据集;后者设置的各个
6、条件是Or关系,输出的保留记录为满足各个条件的记录的并集,除此之外剩余的数据集为删除数据集。【过滤条件批处理工从输入数据集中选择属性作为处理对象。【选择变量】:从输入数据集中选择属性作为处理对象。【过滤条件分别针对数值型、字符型和日期型的变量进行条件设置。不满足该条件要求的记录将被过滤掉。示例:某属性列:介于/不介于80,100,“80,100”;某属性列:在列表中/不在列表中,“西安,北京,成都”;某属性列:包含/不包含,“西,北日期型格式:“2000-北-01”或“2000/01/01”或“2000.01.01”【方式】:区分数据过滤条件是通过值来过滤,还是字段来过滤。关于此节点的使用说明
7、:注1: 字符型属性支持得过滤条件有:等于、不等于、在列表中、不在列表中、包含、不包含、缺失、非缺失、以开始、以结束、单类别个数小于、单类别个数小于等于、单类别个数大于、单类别个数大于等于、单类别占比小于、单类别占比小于等于、单类别占比大于、单类别占比大于等于; 数值型属性支持的过滤条件有:等于、不等于、在列表中、不在列表中、小于、小于等于、大于、大于等于、介于、不介于、缺失、非缺失、升序TOPN、降序TopN; 日期型属性支持的过滤条件有:等于、不等于、在列表中、不在列表中、小于、小于等于、大于、大于等于、介于、不介于、缺失、非缺失、升序TOPN、降序TopNo注2:针对数值型属性支持与数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 处理 教学 讲义