大数据项目技术选型.docx
《大数据项目技术选型.docx》由会员分享,可在线阅读,更多相关《大数据项目技术选型.docx(16页珍藏版)》请在第一文库网上搜索。
1、目录构造一、主流架构选用技术二、Hadoop版本选型方案三、选用的技术与其他工具的比照四、大数据相关的技术选型版本确定五、市场上的hadoop发行版厂商资料六、具体操作一、主流架构选用技术:采集层:flume;sqoop存储层:包括文件存储层和数据存储层文件:采用hdfs存储数据:采用hbase,redis等模型层:离线处理:mr/yarn;实时流式处理sparkstreaming(比storm的优势)分析层:hive管理层:zookeeper调度;ha二、Hadoop版本选型方案:Hadoop提供的经典方案:HDPHadoopDataPlatform管理一体化数据接入FlumeScriptS
2、QLNosqlStreamSearchIrrMemoryOthersSqoopPigHiveHbaseStormSolrSparkYARN-ReadyAppsNFSWebHDFSFalconYARNHDFS数据管理三、选用的技术与其他工具的比照:选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高选用Flume的好处:纯Java开发,框架清楚,易于开发,可以直接写hdfs且支持对和sequence压缩选用Spark的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题
3、平安操作认证,授权,审计,数据保护准备,管理,监控Storage:HDFSAmbariResource:YARNZookeeperAccess:HiveOoziePipeline:FalconCluster:Kno*Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化四、大数据相关的技术选型版本确定:操作系统:Cent0S6*各个技术版本:最新,最稳定,bug少Hadoop版本:此版本是一个相对最新且比拟稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume版本
4、:Kafka版本:Spark版本:此版本能支持以上的版本且相对稳定版Sqoop版本:Hive版本:Hbase版本:Mahout版本:五、市场上的hadoop发行版厂商资料:除了社区的ApacheHadoop夕卜,Cloudera,Hortonworks,MapR,EMC版本:IBM,Intel,华为等都提供了自己的商业版本。版本容特点网址,doudera/documentation/archive/cdh/4-*/4-7-1/CDH4-Installation-Guide/cdh4ig_topic_ll_4htmlHortonworksHDP包括HDFS、YARN、HBase、MapReduc
5、exHive、Pig、hortonworks./MapRIlCatalog、Zookeeper、Oozie、MahoutxHue、Ambari、Tez和Hive的实时版(Stinger)以及其他开源工具。包括HDFS、HBase.MapReduce、Hive、MahoutsOozie、Pig、ZooKeeper、Hue和其他开源工具。还包括直接NFS访问、快照和用于“高可用性的镜像有的HBase实现(与ApacheAPI完全兼容),以及MapR管理控制台。1.构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无NameNode单点故障(SPOF),并且在AP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 项目 技术 选型
