一文搞懂Hadoop生态系统.docx
《一文搞懂Hadoop生态系统.docx》由会员分享,可在线阅读,更多相关《一文搞懂Hadoop生态系统.docx(9页珍藏版)》请在第一文库网上搜索。
1、一文搞懂Hadoop生态系统原创王春波数仓宝贝库2022-01-06 18:18收录于合集#hadoop2 个#大数据22个数仓宝贝库数据人的充电站,专注于分享大数据、数据库、数据分析、数字化转型,以及数据管理与运营等学习干货。81篇原创内容公众号数仓宝贝库,带你学数据!导读:Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,目前由Apache软件基金会管理。通过Hadoop ,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力执行高速运算和存储。简单地说,Hadoop是一个平台在它之上可以更容易地开发和运行处理大规模数据的软件。OlHadoop 概述Had
2、oop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。Hadoop是可扩展的,它可以方便地从单一服务器扩展到数千台服务器,每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性,软件库本身也提供数据保护,并可以在应用层做失败处理,从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图1所示。部署管理工具AmbariTez (DAG 模型)MapReduce图1 Haddoop开源生态Pig脚本VJGraph图计算Hive、数据仓库Mahout机器学习Streaming流计算HDFS (分布式块存储)Ranger安全
3、管理Knox安全网关PhoenixSQL查询接口HBase分布式数据库Spark (内存计算)Tachyon (分布式缓存)02Hadoop生态圈Hadoop包括以下4个基本模块。1) Hadoop基础功能库:支持其他Hadoop模块的通用程序包。2 ) HDFS : 一个分布式文件系统,能够以高吞吐量访问应用中的数据。3 ) YARN : 一个作业调度和资源管理框架。4 ) MapReduce : 一个基于YARN的大数据并行处理程序。除了基本模块,Hadoop还包括以下项目。1 ) Ambari :基于Web ,用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce, Hi
4、ve、HCatalog. HBase、ZooKeeper. Oozie、Pig 和 Sqoop。Ambari还提供显示集群健康状况的仪表盘,如热点图等。Ambari以图形化的方式查看MapReduce. Pig和Hive应用程序的运行情况,因此可以通过对用户友好的方式诊断应用的性能问题。2 ) Avro :数据序列化系统。3 ) Cassandra :可扩展的、无单点故障的NoSQL多主数据库。4 ) Chukwa :用于大型分布式系统的数据采集系统。5 ) HBase :可扩展的分布式数据库,支持大表的结构化数据存储。6 ) Hive :数据仓库基础架构,提供数据汇总和命令行即席查询功能。7
5、 ) Mahout :可扩展的机器学习和数据挖掘库。8 ) Pig :用于并行计算的高级数据流语言和执行框架。9 ) Spark :可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单而富有表达能力的编程模式,支持ETL、机器学习、数据流处理、图像计算等多种应用。10 ) Tez :完整的数据流编程框架,基于YARN建立,提供强大而灵活的引擎,可执行任意有向无环图(DAG )数据处理任务,既支持批处理又支持交互式的用户场景。Tez已经被Hive、Pig等Hadoop生态圈的组件所采用,用来替代MapReduce作为底层执行引擎。11 ) ZooKeeper :用于分布式应用的高性
6、能协调服务。除了以上这些官方认可的Hadoop生态圈组件之外,还有很多十分优秀的组件这里没有介绍,这些组件的应用也非常广泛,例如基于Hive查询优化的Presto.Impala. Kylin 等。此外,在Hadoop生态圈的周边,还聚集了一群伙伴,它们虽然未曾深入融合Hadoop生态,但是和Hadoop有着千丝万缕的联系,并且在各自擅长的领域起到了不可替代的作用。图2是阿里云E-MapReduce平台整合的Hadoop生态体系中的组件,比Apache提供的组合更为强大。Data Science workbenchEMR-Workspace%Hue. SupersetData WorksJob
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一文搞懂 Hadoop 生态系统