基于PYTHON语言的大数据分析项目实训.docx
《基于PYTHON语言的大数据分析项目实训.docx》由会员分享,可在线阅读,更多相关《基于PYTHON语言的大数据分析项目实训.docx(7页珍藏版)》请在第一文库网上搜索。
1、基于PYTHON语言的大数据分析项目实训一、项目背景大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。大数据分析就是将海量碎片化的信息数据能够及时地进行筛选、分析,并最终归纳、整理出企业需要的决策资讯,从而使企业在市场上拥有更强的竞争力和不断创新的能力。对于拥有巨大价值和能量的大数据,企业如何面对信息时代的冲击和进行管理转型成为必须做出的选择。因此,如何运用已有的先进数据分析技术寻求有效的大数据分析、决策挖掘和可视化效果展现已成为当今企业运营和大数据
2、技术发展的重中之重。Python以其清晰划一的风格、优秀的简洁性、易读性、可扩展性和易维护性等优点,已经成为目前最受欢迎的程序设计语言之一。PyIhon作为多功能编程语言,内置丰富易用的数据分析工具包,同时可支持多种第三方数据分析工具包,可实现强大的大数据分析功能,综合性能优异。本实训项目将使用Python完成影评大数据分析,充分锻炼学生的Python编程能力和数据分析能力,掌握以Python大数据分析师职业岗位为核心的关键职业技能。二、实训内容本项目的实训内容主要包括:掌握HadOoP平台环境部署与基本配置,了解基于大数据计算平台的常见应用。综合利用numpy、pandas、matp1ot1
3、ibscikit模块和MaPRedUCe技术、分布式存储系统HDFS、分布式计算框架MaPRedUCe/Yarn、数据仓库Hive、Python等开发语言工具和技术,并匹配和连接数据源,实现大数据的采集,提取、清洗、转换、分析、挖掘等操作,得出有益于企业发展的运营决策关联信息,并对数据分析结果且实现进行丰富直观的可视化效果呈现。三、实训目标1 .掌握Hadoop平台安装部署和基本配置。2 .掌握HDFS常用操作命令(查询文件类别、上传、删除文件、查询HDFS基本统计信息)。3 .了解规则文件数据和关系型数据库数据抓取以及数据同步(同HadoOP/Hive数据同步)4.掌握HiVe数据仓库导入、
4、导出以及同HadooP数据文件的转换,实现HiVe数据管理常用命令。5 .能够通过Python编程,使用streaming和MaPRedUCe机制实现数据的抓取。6 .掌握基于MapReduce的HDFS文件系统的文件数据的数据查询、整理和计算。7 .能够灵活运用Python和HadooP大数据平台相关技术,实现对企业大数据的采集,提取、清洗、转换、的分析、挖掘和可视化展现的完整流程、系统设计和程序研发等职业技能,具备从事Python数据分析师、PythOn研发工程师等岗位的职业能力。四、知识储备(一)Hadp生态系统 经过多年的发展形成了Hadoop1.X生态系统,其结构如下图所示: HDF
5、S-Hadoop生态圈的基本组成部分是Hadoop分布式文件系统(HDFS)。HDFS是一种分布式文件系统,数据被保存在计算机集群上,HDFS为HBase等工具提供了基础。 MapReduceHadoop的主要执行框架是MapReduce,它是一个分布式、并行处理的编程模型,MapReduce把任务分为map(映射)阶段和reduce(化简)。由于MapReduce工作原理的特性,Hadoop能以并行的方式访问数据,从而实现快速访问数据。 Hbase-HBase是一个建立在HDFS之上,面向列的NoSQ1数据库,用于快速读/写大量数据,HBase使用Zookeeper进行管理。 Zookeep
6、er一用于Hadoop的分布式协调服务。Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群中,用于管理HadOoP集群。 Pig它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig1atin),其编译器将Pig1atin翻译成MapReduce程序序列。 HiveHiVe类似于SQ1高级语言,用于运行存储在HadoOP上的查询语句,HiVe让不熟悉MapReduce开发人员也能编写数据查询语句,然后这些语句被翻译为I1adoop上面的MaPRedUCe任务。像Pig一样,HiVe作为一个抽象层工具,吸引了很多熟悉SQ1而
7、不是JaVa编程的数据分析师。 SqoOP是一个连接工具,用于在关系数据库、数据仓库和HadooP之间转移数据。Sqoop利用数据库技术描述架构,进行数据的导入/导出;利用MaPRedUCe实现并行化运行和容错技术。F1Ume提供了分布式、可靠、高效的服务,用于收集、汇总大数据,并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构,并提供了数据流的流。它利用简单的可扩展的数据模型,将企业中多台计算机上的数据转移到Hadoop中。(二)MapReduce工作机制介绍MaPRedUCe采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过
8、整合各个节点的中间结果,得到最终结果。简单地说,MaPRedUCe就是任务的分解与结果的汇总“。在HadOoP中,用于执行MaPRedUCe任务的机器角色有两个:一个是JobTraCker;另一个是TaSkTraCker,JObTraCker是用于调度工作的,TaSkTraCker是用于执行工作的。一个HadooP集群中只有一台JobTraCker。在分布式计算中,MaPRedUCe框架负责处理并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 PYTHON 语言 数据 分析 项目