工业大数据分析数据列处理教学讲义.docx
《工业大数据分析数据列处理教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析数据列处理教学讲义.docx(17页珍藏版)》请在第一文库网上搜索。
1、任务2.4数据列处理任务概述本节主要介绍常见的数据列处理的原理和方法,并通过案例实现进行实操演示。数据集选用“工业用水处理投药量数据”。数据列处理包括“属性过滤”、“缺失值处理”、“异常值检测”和“数据类型变换”。属性过滤能够根据用户设置的一个或者多个属性进行列数据的过滤和筛选。缺失值处理能够对存在缺失值的变量进行填充,根据数据类型的不同,可选择多种方式进行变量的缺失值替换。异常值检测能够对存在异常和噪声的数据进行检测和识别,同时可进一步对识别出的异常值进行处理。数据类型变换包括数值型属性变换、字符型属性变换和日期型属性变换。数值型属性列可转换为日期、字符串的方式。字符型属性可变换为数字、日期
2、的方式。日期型属性可变换为数值型、字符型属性的方式。通过本任务的学习:(1)能够对上传到大数据平台中的数据进行属性过滤处理;(2)能够对上传到大数据平台中的数据进行缺失值处理;(3)能够对上传到大数据平台中的数据进行异常值检测;(4)能够对上传到大数据平台中的数据进行数据类型变换处理。任务实现2.4.1属性过滤属性过滤节点能够根据用户设置的一个或者多个属性进行列数据的过滤和筛选,选择“保留属性”,则选到右边的属性是保留下来的;选择“过滤属性”,则选到右边的属性是过滤掉的,过滤掉的变量列将被删除掉不再输出。图2-4-1属性过滤节点属性过滤操作步骤如下:步骤1:用户先完成文件输入。登录算法建模工具
3、产品,打开数据分析,打开或新建挖掘分析模型后,在产品界面左侧菜单“数据管理一输入”菜单下,将“文件输入”节点拖至右侧设计区,双击打开界面,点击“文件上传”按钮,上传文件“工业用水处理投药量数据.csv”。步骤2:在挖掘界面左侧”数据处理一列”菜单下,将“属性过滤”节点拖至右侧设计区,与需要处理数据的节点连接,构建如下模型,图2-4-2所示。图2-4-2属性过滤模型建立步骤3:双击“属性过滤”节点打开节点,图2-4-3所示。属性过滤全85C)字符。数值O保留属性过泡属性O日期。文$B3M类型瞬-11I时句ISzKiSS出水速度取水IjRzKPHPACM图2-4-3属性过滤界面说明:界面左侧加载节
4、点输入数据的所有列名,将需要处理的列名选至右侧,进行和属性的过滤。也支持通过读取模型进行属性筛选。参数信息配置情况:【保留属性工选择保留属性,则选到右边的列是保留下来的属性,未被选中的变量列将被删除掉不再输出。【过滤属性工选择过滤属性,则选到右边的列是过滤掉的属性,过滤掉的变量列将被删除掉不再输出。【选择变量】:从输入数据集中选择属性作为输出对象。原数据集中未被选中的变量列将被删除掉不再输出。【模型读取】:支持读取描述数据特征、变量选择和相关系数输出的模型。注:属性过滤中的模型读取支持描述数据特征、相关系数、变量选择模型,通过不同的过滤条件进行属性的筛选。步骤4:选择“取水量”、“原水PH”和
5、“PAC耗”三个属性列进行过滤,过滤后的数据集中排除这三列数据。属性过滤全部O字符O数值OOK时间m*is出水速度己选择字段类型瞬eK7X*数值型(INT)XOIKzkPHWffiS(DOUB1E)XPACttff1S(D0U81E)XO保留W点击查看功能说明1ft啕图2-4-4描述数据特征-属性过滤注:属性过滤读取模型时,保证数据名称和数据类型与原信息保持一致。步骤5:点击右上角“运行”按钮,运行后在“洞察”中查看节点运行结果,图2-4-5和图2-4-6所示。运行结果分析:通过以上运行结果截图可以看到属性过滤处理后的10个样例的运行结果。2.4.2缺失值处理用户可使用缺失值处理节点对存在缺失
6、值的变量进行填充,具体按照数据类型的不同,可选择多种方式进行变量的缺失值替换,最后输出满足设置方式处理后的数据表。图2-4-7缺失值处理节点缺失值处理案例操作步骤如下:步骤1:用户在建模区分别拖入“文件输入”和“缺失值处理”节点,构建如下模型如图所示,图2-4-8所示。步骤2:对“文件输入”节点进行设置,选择“工业用水处理投药量数据”,点击“确定”按钮,图2-4-9所示。工业用水处理投药量数据i3文件上传删除辐蒯除数据内容数据结枸6可用飒混投西量教据时向原水PH原水速度2013/8/206:007.13623462013/8/207:007.12628812013/8/225:006.9129
7、4812013/8/226:006.91293.292013/8/231906.818495I分区记弱毁100000点建看功能说明确定取消图2-4-9文件输入设置步骤3:双击“缺失值处理”节点,进行设置,如图2-4-10所示。图2-4-10缺失值处理节点配置缺失值处理针对存在缺失值的变量进行填充,具体按照数据类型的不同,可选择多种方式进行变量的缺失值处理。最后输出满足设置方式处理后的数据表。界面左侧加载节点输入数据的所有列名,将需要处理的列名选至右侧,节点对数值型数据提供最小值、最大值、平均值、众数、中位数、。和自定义等方式的缺失值处理。用户可在变换方式处进行选择。参数信息配置情况:【选择列工
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 处理 教学 讲义