大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算.docx
《大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算.docx》由会员分享,可在线阅读,更多相关《大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算.docx(2页珍藏版)》请在第一文库网上搜索。
1、大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算1.简述MapReduce工作原理答:工作原理:1)将大规模数据集分成若干个小数据片段。2)将每个小数据片段传给不同的计算节点。3)计算节点使用MaP函数对每个小数据片段进行处理,将每个数据片段转换成多个键值对。4)将输出的键值对按照键进行排序,以便于后续的RedUCe操作。5)将排序后的键值对传给不同的计算节点。6)计算节点使用RedUCe函数对每个键值对进行处理,将相同键的所有值合并在一起。7)最终愉出Reduce函数的结果。2.简述SPark工作原理答:SPark工作原理:首先看中间是一个SPark集群,可以理解为
2、是SPark的StandaIone集群,集群中有6个节点左边是Spark的客户端节点,这个节点主要负责向Spark集群提交任务,假设在这里我们向Spark集群提交了一个任务那这个Spark任务肯定会有一个数据源,数据源在这我们使用HDFS,就是让Spark计算HDFS中的数据。第六章HBaSe和HiVe数据管理1简述HBase工作原理的理解答:HBaSe的工作原理:答:1.数据存储:HBase的数据存储是基于HDFS的分布式文件系统,它将数据分成多个块并存储在不同的服务器上。每个块都有一个唯一的块ID,这个ID可以用来定位块的位置。HBaSe的数据存储是按照列族和列来组织的,每个列族可以包含多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 基础 第三次 平时 作业 第五 MapReduce Spark 分布式 计算