第三部分 必修1数据处理与应用知识点公开课.docx
《第三部分 必修1数据处理与应用知识点公开课.docx》由会员分享,可在线阅读,更多相关《第三部分 必修1数据处理与应用知识点公开课.docx(8页珍藏版)》请在第一文库网上搜索。
1、第三部分数据处理与应用一、数据整理1 .数据整理的目的:检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。2 .常见的数据问题(1)数据缺失问题:最简单的处理方法是忽略含有缺失值的实例或属性,还可以采用平均值、中间值或概率统计值来填充缺失值。(2)数据重复问题:会导致数据冗余,浪费存储空间和网络带宽,误导用户数据分析。重复数据的处理方法是在进一步审核的基础上进行合并或删除等处理。(3)异常数据问题:不符合一般规律的数据对象。它可能是要去掉的噪声,也可能是含有重要信息的数据对象。比如某篮球比赛中某人的篮板统计为35,这个数字异常,但可能是真的。(4)逻辑错误问题:数据属性值与实际值
2、不符,或违背业务规则或逻辑。如:2月30日(5)格式不一致问题:对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行数据转换。二、常用表格数据处理(以EXCeI为例)1单元格的引用:单元格单元格区域不连续的单元格区域列号行号B50起始单元格:结束单元格B51:C53区域1,区域2,区域3,B5kB53,D51:D542 .数据计算算术运算符:举例:+-/a=20-B6=D3*D4=D620选中要进行计算的单元格,输入以“二”开头的公式。右图在C2中输入“二B2*2,计算结果为60o函数举例:SUM(参数1参数2,)AVERAGE(参数1,参数2,)MAX(参数1参数2,)M
3、IN(参数1参数2,)注:参数可以是数字、单元格或单元格区域=SUM(A1:A6)求A1:A6区域内所有数据的和=AVERAGE(A1:A6)求A1A6区域内所有数据的平均值3 .数据填充公式不仅用于计算,更重要的是构建计算模型,然后用自动填充完成批量数据计算。绝对引用对数据填充的作用列号行号B2自动填充后公式中引用的单元格相对改变列号$行号B$2纵向填充后公式中引用的单元格不变,横向步充会变$列号行号$B2横向填充后引用的单元格不变,纵向填充会变$列号$行号$B$2自动填充后公式中引用的单元格都不变4.图表呈现BC门口产业产值(亿元)同比增长%2第一产业47003.57.153第二产业319
4、685.348.62第三产业一,国内生产总值290777.444.2365745图表数据区域主要查看“图例”和“坐标”内容。如图中所示,图例显示为列D的标题,横坐标显示为列A的内容,故该图表的数据区域为A1:A4,D1:D4三、大数据处理1 .处理大数据时,一般采用分治思想,分布式计算和并行处理是大数据处理的主要方法。2 .分布式计算:是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。3 .大数据类型(1)静态数据:在处理时已经收集完成、在计算时不会发生改变的数据。(2)流数据:不间断地、持续地到达的实
5、时数据,需要进行实时计算与分析。(3)图数据:图就是一些数据和关联这些数据的联系的集合,如社交网络,道路交通等。4 .大数据处理类型(1)对静态数据的批处理计算(HadoOp、Spark)Hadoop是面向大规模的批处理,适用于处理静态数据,主要包括分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MaPRedUCe等多个模块。HDFS:将大规模海量的静态数据以文件的形式、用多个副本保存在不同的存储节点(服务器)中,并用分布式系统进行管理。云盘、网盘的底层运用就是HDFS。HBase:列式数据库,主要用来存储非结构化数据和半结构化数据,可管理PB级大数据。MapReduce:将
6、任务分解并发到多个节点(服务器)上,使用Map函数在节点服务器进行计算处理,然后由Reduce函数归纳计算结果并输出。(2)对流数据的实时计算(StonHeron)流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。典型应用Twitter(3)对图数据的图计算(PregeKGraphX)(4)实时处理与批处理的整合(Hadp+Storm)在同一个平台既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延时时间,减少系统的开销,降低使用成本。四、大数据处理编程处理数据1.pandas是Python的第三方模块,提供了Series和Data
7、Frame两种数据结构。pandas模块主要用于数据的整理、计算、统计、分析和简单可视化。引入PandaS模块的方法:importpandasaspd2.pandas的SerieS对象:一维数据结构,常用属性有index(索引)和Va1UeS(值)S1=Pd.SeriesQ166,178,180J)#创建SerieS对象时指定索引print(s1),s2=pd.Series(U66,178,18OJ,index=sO1*sO2YSo3)送行结果一Y左列:ifcx)print(s2)运行结果:I3_J右列:VaIUCS)s11662180r)s02178dtype:int64s03180dtyp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三部分 必修1数据处理与应用知识点公开课 第三 部分 必修 数据处理 应用 知识点 公开