《2023实时数据仓架构图.docx》由会员分享,可在线阅读,更多相关《2023实时数据仓架构图.docx(17页珍藏版)》请在第一文库网上搜索。
1、基于FIiiIk的滴滴实时数仓实践分享大纲:整体概况业务实践平台&引擎总结反思未来规划F1INKFORWARD#ASIA2023数仓分层开发效率高,快速完成业务需求.数据短用性较差,资源浪费严重可维护性差,如果存在口径变更,需要多处修改. 初步体赢仓糠念,进行基本数据分层 没有进行指标层面沉淀 提供服务方式单一,依赖O1AP 完成整体数据分层,包含明细数据和汇总数据 统一DWD层,降低资源浪费,提高数据震用性 完成指标口径沉淀,保证数据质整体资源消耗下降30%+F1INKFoRWARt#AS1A2023体系架构高管运营业务分析开发数娓体系建设屈范6)APP数据看板数据产品实时接口服务O1AP一
2、站式开发平台计算引簟OOC指标工总OODWM因泡呼单完单PVUV.冒DWD业务数据流量数据维度数据WODS数据康Bm1OgPub1ic1ogToPiC消息队列数据源2实时O1AP,从0到1分享大纲:业务背景 机遇挑战 架构演进 架构优化未来展望遇到的需求与挑战RequirementsAndCha11engesFUNKFORWARD#ASIA2023#1效率:SQ1查询慢TheSQ1queryiss1ow.SE1ECTMAX(received),addr.hashFROMaddress.txGROUPBYaddr.hashORDERBYMAX(received)DESC;#2实时:实时的需求,链
3、上实时风控Rea1-time:Rea1-timerequirements.Rea1-timeriskcontro1onchain.#3监控:缺乏完整的监控,服务好才是真的好Monitor:1ackofmonitoringservices,Goodserviceisrea11ygood.ReauimeO1APArchitecture客户合作伙伴决策支持应用层计算层数据层数据源数据资产Sink层内部I腾讯基于FIink+Iceberg全场景实时数仓的建设实践分享大纲:背景及痛点 数据胡技术apacheiceberg f1ink+iceberg构建实时数仓 未来规划痛点总结summary传统T+1任
4、务1ambda架构痛点K叩Pa架构痛点1、海量的TB级T+1任务延迟导致下游整相产出时间不稳定.2、任务遇到故障重试恢复代价昂贵3、数据架构在处理去重和exact1y-OnCeiS义能力方面比较吃力4、架构复杂,涉及多个系统协调,靠调度系统来构建任务依赖关系1、同时维护实时平台和离线平台两套引擎,运维成本高2、实时离线两个平台需要维护两套框架不同但业务逻辑相同代码,开发成本高3、数据有两条不同链路,容易造成数据的不一致性4、数据更新成本大,需要重跑链路1、对消息队列存储要求高,消息队列的回溯能力不及离线存储2、消息队列本身对S掂存储有时效性,且当前无法使用O1AP引擎直接分析消息队列中的雌3、
5、全链路依赖消息队列的实时计算可能因为数据的时序性果不睁分钟/秒级MinuteZsecond支持ACID语义AC1Dsemantic高效的UPSert操作Upsertoperation支持批流读写Batch-streamreadwrite高效的回溯能力BackfiUabi1ity支持Schema变更Schemaupdate实时数仓建设的需求Requirementtobui1drea1-timedatawarehouseIJKappa小时/天级,Hour/dayFr实时化需求Rea1-timerequirement存储层需要的能力Neededabi1ityinStorage1eve1F1INKFO
6、RWARD#ASIA200实时数仓数据湖分析系统Rea1-timedata1akehouseana1yticsystemStreamingF1INKFORWARD#ASIA20231腾讯看点基于FIi11k构建万亿数据量下的实时数仓及实时查询系统分享大纲:背景介绍架构设计实时数仓实时查询系统Updatedai1yMasterUsers(Rept)OneMinute1eve1-Content-usergranu1aritys1ightaggregationOneMinuteIeve1-Contentgranu1aritymoderateaggregationRea1-timedatawareho
7、useRea1-timedatawarehouseDWM1ayer(Messagequeue)Rea1-timedatawarehouseDWS1ayer(Messagequeue)Rea1-timequerysystemMu1ti-dimensiona1queryca1cu1ationStorageCIickHouse.RedisDataana1ysisa1gorithmSUveSy*tmsContentdistributionRea1timeco11ectionofuserbehaviordataOperatingsyftmmi1Usecond1kmi11isecond/IkHBase-P
8、roxy.redissecond1k一-UKHBRSUITF1INKFORWARD#ASIA2023ApacheF1ink敷掘仓启Datawarehouse内容维度数据Contentdimensiondata存一致性Cacheconsistent维度数据Dimensiona1data商OOP用户像数据UserportraitdataRea1-timefeedbackRea1-time:feedback龙逸尘F1ink在顺丰的应用实践分享大纲: 建设背景 建设思路 落地实践 应用案例 未来规划实时数仓建设思路Ideasofconstructingrea1-timedatawarehouse统一数
9、仓标准与元数据基于SQ1统一开发流程批流统一宽表建设平台治理引入Hudi加速宽表产出数仓平台化建设基于F1inkSQ1构建实时数仓数据统一接入开发元数据管理统一数仓规范Unifieddatawarehousespecification设计规范命名规范模型规范实时数仓层级划分The1ayersofrea1-timedatawarehouseODS数据库Bin1og业务日志业务消息队列埋点日志ADSKafkaIESHBaSe)HiVeKafkaKafkaSourceHBaSeESDIMRediS)IMySQ1实时数仓方案-Kappa架构Rea1-timedatawarehouse-Kappaarc
10、hitecturePrestoIKy1in)IHBaSe(ESDIMRediSJMySQ11SourceMessageQueueRDS/Bin1og实时数仓方案对比与实际需求Rea1-timedatawarehousearchitecturecomparisonandourdemands方案对比1ambda架构Kappa架构实际需求实时性*eaT+0的实时表T+0的实时表T+0的实时宽表资源消耗批流同时运行资源消耗大纯流处理资源消耗小大部分流处理资源消耗一般更新历史数据全量重新计算全量重新计算直接更新原表保留更新记录重新计算时吞吐全量批处理吞口大全量流处理吞吐量较批处理小无需团新计算适用性全部
11、场景部分场景全部场景实时数仓方案最终架构Rea1-timedatawarehouse-architectureHudi关键特性ThekeyfeaturesofHudi时间漫游更新删除存储类型优化视图增量消费文件压缩可回溯历史数据在大规模数梨集中更新期除CopyonWrite读优化视图作为期源发出增量数据异步压缩小文件根据主键更新删除MergeonRead增视;实时视图构建实时数仓宽表Rea1-timedatawarehouse-widetab1econstruction运单宽表(Waybi11detai1Jnfo)宽表运单表(Waybi11infO)事实表订单表(OrdeJinfO)事实表用户
12、表(IJSe1jnfo);维表运单号(WaybiI1id),运单状态(WaybH1Status),订单号(Orderjd),订单状态(Order_status),用户ID(USerJd),用户名(USemame)将运单表数据插入宽表,运单号作为宽表主键运单号和订单号的映射存入临时表订单表用户ID关联用户表,获取用户名订单表根据订单号从临时表中获取对应运单号将订单表增量插入宽表,更新宽表状态InMrtintod4d.wybi11f1.dti1.infost1ctybi11id,wybi11.stAtus9orderaaidfroodikfk.wybi11info,createtb1d1.rdis
13、indx(Order.idstring,waybi11.idstring)MM(connctor.typ,*rdi,j,connctor.i,ipX,connctor.port,connctor.1ookup.cch.naxcoms,ie,connctor.1ookup.cch.tt*eweeee,connector.version*,5.,7);intrtintodia.rdiswinxs1ctordr-id,aybi1i-idroeods.kf.wybi11.info.insertintot1ctdifunction(*di.rdisiMx,Ordtr*wybi11vid*)asMaybi!1*ordrid,ordr-sttus,u“r_id,dif-di-functi(,dir.utr-info,usr-id,*usmaM*)atusmjarooUJd.ordejfMo;一ApacheF1ink在汽车之家的应用及实践