Hadoop生态系统及开发 实训手册 实训5 单词计数.docx
《Hadoop生态系统及开发 实训手册 实训5 单词计数.docx》由会员分享,可在线阅读,更多相关《Hadoop生态系统及开发 实训手册 实训5 单词计数.docx(7页珍藏版)》请在第一文库网上搜索。
1、实训3.2单词计数1 .实训I目的基于MapReduce编程思想,编写WordCount程序。2 .实训内容理解MapReduce编程思想,掌握编写MapReduce版本WordCount, 了解该 程序的执行流程,结合执行过程与结果,理解MaPRedUCe的原理。3 .实训要求以小组为单元进行实训,每小组5人,小组自协商选一位组长,由组长安排 和分配实训任务,具体参考实训操作环节。小组成员需要具备HDFS分布式存储 基础相关知识,并确保具备前面的实训环境。4 .准备知识(1) MapReduce 编程编写在Hadoop中依赖YARN框架执行的MapReduce程序,大部分情况下 只需要编写相
2、应的Map处理和Reduce处理过程的业务程序即可,因为大部分的 代码,HadOOP已经帮我们写好了。所以编写一个M叩RedUCe程序并不复杂,关 键点在于掌握分布式的编程思想和方法,主要将计算过程分为以下五个步骤:迭代。遍历输入数据,并将之解析成Key,Value键值对。将输入的Key,Value键值对映射(map)成新的Key,Value键值对。依据Key对中间数据进行分组。以组为单位对数据进行Reduce0迭代。将最终产生的Key,Value键值对保存到输出文件中。(2) JaVaAPl 解析RiputFormat:用于描述输入数据的格式,常用为IbXtl叩UtFoI*mat,其提供 如
3、下两个功能:数据切分:按照某种策略将输入数据切分成若干个数据块,以便确定M叩 Task个数以及对应的数据分片。为MaP任务提供数据:给定某个数据分片,能将其解析成一个个的Key,Value 键值对。OUtPUtForrnat:用于描述输出数据的格式,它能够将用户提供的Key,Value 键值对写入特定格式的文件中。M叩PelyRedUCe门封装了应用程序的数据处理逻辑。Writable: Hadoop自定义的序列化接口,实现该类的接口可以用作 MapReduce过程中的VlIUe数据使用。WritabIeComParable:在 Writable 基础上继承了 Congamble 接口,实现该
4、 类的接口可以用作MaPRedUCe过程中的Key数据使用。因为Key包含了比较和 排序的操作。5 .实训步骤本实训包含四大步骤:准备运行环境、准备统计数据、编写MapReduce程 序、打包并运行代码。查看运行结果这几个步骤,详细如下:(1)准备运行环境启动三台节点,然后在master中启动HDFS和YARN:start-dfs.shstart-yarn, sh(2)准备统计数据新建待统计文件word.txt,并上传数据到HDFS上vim rootdatasword.txt内容如hello hdfs hadoop hivehello mapreducehello spark sparkai
5、bigdata将WOrd.txt文件上传到HDFS集群hdfs dfs -put rootdatasword.txt查看是否上传成功,如图3.所示则表示上传成功。lrootnaster hadoop# root额aster hadoop# rootnaster hadoop# rootnaster hadoop# root额aster hadoop# rootnaster hadoop# Found 5 itemsvim /root/datas/word. txthdfs dfs -put /root/datas/word.txt /hdfs dfs -Isdnx-rootsupergroup
6、drwxr-xr-x-rootsupergroup-rw-r-r-2 rootsupergrouprootnaster hadoop# -rw-r-r-2 root supergroup-rw-r-r-2 root supergroup/4222-l-2719:43/data.txt142022-10-2721:56/test.txt2022-10-2816:02tmp222-10-2816:02/user682022-10-2817:24 /word,txt图3查看上传结果(3)引入编写MaPReduCe程序相关的jar包本次实训继续使用实训2.3的环境,但编写MapReduce程序需要引入
7、相关的 jar 包,此时继续弓I入 hadoop-mapreduce-client-core.jar 包。如图 3-所示。a p。+ 一 后X. . Name: libop-corfo-3.3.4Project Settings Project ModulesK-b+ * V CMieiEJ Select library FilesFacetsAnHactsPhtfom) SettingsSelect files or directories in which library classes, source, documentation OC native libraries arc loca
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop生态系统及开发 实训手册 实训5 单词计数 Hadoop 生态系统 开发 手册 实训 单词 计数