详解大数据批流处理中的两大架构.docx
《详解大数据批流处理中的两大架构.docx》由会员分享,可在线阅读,更多相关《详解大数据批流处理中的两大架构.docx(5页珍藏版)》请在第一文库网上搜索。
1、详解大数据批流处理中的两大架构导读:随着应用需求的不断发展,数据处理系统的能力也亟待提高。其中最为迫切的,便是如何利用云边协同计算平台的环境优势,实现高效的批流融合处理系统,从而低延迟、高吞吐地对全量历史数据与实时的流数据进行融合计算,为各行业的新型应用提供有力支撑。/ J I i i 1 卜 A 4 01 Lambda 架构对于在云端的数据中心实现针对海量历史数据的批量计算(及优化),同时需要分别在云端、边缘端实现针对流数据的实时处理的场景。换言之,为了达到全量数据批处理的准确性与实时数据流处理的低延迟的兼具,Nathan Marz基于他在Backtype和Twitter公司中对大数据处理系
2、统的设计、开发经验,于2013年提出了批流处理系统架构LambdaoLambda架构是当前大数据中批流处理方向影响最为深刻、应用最为广泛的架构,主要分为以下3个组成部分:(1)批处理层(batch layer)该层负责两方面的内容:1)管理“主数据库”,即保存有完整的历史数据、持久化存储的、不可变的、仅支持追加的数据仓库;2)计算批处理视图,即通过批处理的方式对全量数据进行分析所得出的视图。可见,批处理部分类似于其他专用批处理系统,对大规模的数据在保证准确性和完整性的前提下,利用批处理优化技术进行全局分析。(2)服务层(serving layer)该层与批处理层一同工作,功能上作为应用程序进行
3、查询的服务器,负责对批处理层中产生的批处理视图建立索引,以便应用程序能够根据用户的指定进行低延迟的、点对点(ad-hoc)的查询。需要注意的是,这里的“低延迟”指的是用于进行查询(query)时系统响应结果的延迟,这个时间会因为索引的建立而大大降低,但并不会改变批处理层中对全量数据进行计算更新的时间开销。(3)流处理层(speed layer)上述由批处理层与服务层组成的批处理部分能够对离线的历史数据进行完整的分析,但如同传统的批处理专用系统,这个处理过程将会遍历所有已存在的数据,将不可避免地造成较大的计算开销,并占用较长的处理时间。那么为了实现对实时数据的流式处理,便需耍“流处理层”与它相结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 详解 数据 处理 中的 架构
