美团实时数仓架构的演进史.docx
《美团实时数仓架构的演进史.docx》由会员分享,可在线阅读,更多相关《美团实时数仓架构的演进史.docx(24页珍藏版)》请在第一文库网上搜索。
1、美团实时数仓架构的演进史,千亿级数据导读:今天和大家分享一下实时数据在美团的典型应用场景,实时数仓建设中的挑战和解决方案,包括一些关键的设计细节。主要介绍以下几方面内容:建设背景平台架构设计平台建设实践未来计划01建设背景1、实时数据在美团的典型应用场景I业务背景业务形态多:超30条独立业务线场景丰富:Bk算法、调度、事件处理各业务成熟度不同实时数据依赖度高DataFunSummit美团作为本地生活领域的头部公司,在内部孵化了许多独立业务,可以看到有大家所熟悉的美团外卖、酒店、美团优选等,这些业务通过实时数据来支撑其内部各种各样的数据应用场景,比如BI、算法、骑手调度等等。|典型业务场景指标监
2、控:商品库存监控、商家经营报表实时特征:骑手调度、搜索、推荐、广告CTR预估事件处理:客服判责、运营发券、反爬风控数据对账:跨业务数据核对梳理业务场景(做什么)件驱动场业务鼻常波动剜,行为越控活动条件触发敷据分析场量 实时编场沙盘 铜目标修测 交互式分析(即需置询) B有分析散排交换场景-HSL根界、豆败骞算法时间窗口触发条件数据处理的本质/()=算法X =数据数据最新状态数据查询条件业务数据E11DataFunSummit我们对业务场景做了 个简单的分类:指标监控:比如有实时大盘,用来即时反馈业务当日运转的健康度等场景;实时特征:比如搜索、广告CTR预估、骑手调度等,对算法特征数据新鲜度要求
3、较高的场景;事件处理:比如一些风控类、运营活动发券等事件驱动型场景;数据对账:比如金融的支付业务,支付部门与业务部门各自独立,当业务部门的支付单据与支付部门不一致时,会造成资损,这时数据的实时对账就非常关键。I平台现状支撑业务数任务总数集群节点数QPS峰值DataFunSummit上图可以看到,截至目前,实时计算平台所支撑的实时数据处理场景的整体规模,说明实时数据在美团己经影响到了业务的方方面面。I发展历程作业托管平台上线OneSQL化开发平台上线平台化OOo计算引擎201420172019Storm 上线Flink 1.6 上线升级 Flink 1.9Spark Streaming 上线Fl
4、ink SQL 上线Flink HA 改造Spark Streaming 下线统一数仓建模方式O2021升级 Flink 1.12数仓增量化生产流批语义层统一DataFunSummit实时计算平台从成立以来,经历了上图中的几个关键发展阶段。平台正式成立于2014年,我们引入Storm和Spark Streaming作为美团的第一代实时计算引擎,并且发布了第一版作业托管平台。接下来在2017年,平台正式引进了 Flink,并开始初步探索以Flink SQL为主的实时数仓开发方式。并于2019年,正式将Flink SQL作为主要编程接口暴露给业务,将以任务为中心的开发模式,升级为以数据为中心的开发
5、模式。当前,计算平台紧跟业界发展潮流,将工作内容都聚焦在数仓增量化生产、流批语义统一、统一实时离线数仓建模方式等几个方向上。|建设初期问题回顾实时收据建设视角以任务为中心,实时微掘作为离线般仓的加速层而存生2、实时数仓建设过程中的问题及痛点问题开发、运维成本高 Java/Scaia 计H框架API的学习门施,影响迭代效率. 代码本地开发,堆调试,正式环境数据Case遭覆盖. 生产杨路横跨多业务,数据协议出现不统一,会引入颔外的成本.理成本高- 数仓建设流程无规范,鳄业务合作缺少一致性语境,沟通成本高.- 数据建设无抽象、分屉,数据选复用,大烟囱,造成资源浪费.- 元数据缺失,管理者雄以整体把控
6、数嵬的建设质8LDataFunSummit在正式开始介绍数仓平台的建设实践之前,先来回顾下平台初期所遇到的问题。实时数据开始建设之初,是没有离线数仓那样成熟的建设方法论的,而且也没有离线数仓领域那样成熟的开发工具,所以带来了以下儿点问题:首先就是高昂的开发运维成本,每次计算框架的升级,业务都需要学习一遍计算框架的APT。代码本地开发,再去线上调试,本地的case难以覆盖线上的数据问题。业务各自的数据协议不统一,相互之间进行数据交换,沟通协作的成本也是比较高昂的。数仓的建设方式没有统一规范,导致数据的冗余和重复建设,给后期的资源治理带来了非常大的麻烦。I建设路线数仓开发迭代效率作业平滑升18动卷
7、里新作业配ttamraConnectorDataFunSummit从上面的问题出发,我们制定了平台的建设路线。主要集中在两个层面,首先是降低业务的开发运维门槛,让实时数仓开发可以像离线数仓开发那样简单高效。比如我们提供了标准的ETL作业模板,web集成开发环境,并且扩展了 SQL的能力,使业务可以尽量以符合其认知的形式去进行代码开发。还有数仓建设中业务最关心的数据质量问题,我们也提供了相应的配套工具,帮助业务以尽可能低的成本将可靠的数据交付应用方。可用性在离线数仓建设过程中可能大多体现在数据是否按时就绪,那么实时数仓对数据的时延要求更高,所以可用性的保障也非常关键。前面提到的都是在开发运维效率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实时 架构 演进