《新一代大数据技术架构LakeHouse湖仓一体.docx》由会员分享,可在线阅读,更多相关《新一代大数据技术架构LakeHouse湖仓一体.docx(10页珍藏版)》请在第一文库网上搜索。
1、新一代大数据技术架构LakeHouse湖仓一体摘要:当前的大数据技术应用趋势表明,客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和0RC格式的外部表支持,这使数仓用户可以从相同的SQL引擎查询数据湖表,但它不会使数据湖表更易于管理,也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse(湖仓一体)作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的下一站灯塔。KeenDataLakeHouse(湖仓一体)可定义为基于低成本,可直接访问存储的数据管理系统,它结合了数据湖和数据仓库的主要优势,开放格
2、式的低成本存储可通过前者的各种系统访问,而后者则具有强大的管理和优化功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为企业的数据治理带来更多的便利性。一、企业数据架构发展史第一阶段:传统数仓传统数据仓库是指从业务数据中创建信息数据库,将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策支持和商业智能,它是单个数据存储,出于分析性报告和决策支持目的而创建。传统数仓存储的数据类型,主要是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。针对实时数据处理,非
3、结构化数据处理能力较弱,以及在数据量支持方面相对有限。1. 2第二阶段:数据湖数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。结构化数据半结构化数据非结构化数据数据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后
4、的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。1.3数据湖与数据仓库的区别:在储存方面上:数据湖中的数据为非结构化的,所有数据都保持原始形式仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中:数据湖捕获半结构化和非结构化数据。而数据仓库则只捕获结构化数据并将其按模式组织。数据湖的目的是非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就非常适用于BI分析等操作用途,因为它具有高度结构化。1. 4第三阶段:KeenData
5、LakeHouse(湖仓一体)KeenDataLakeHouse架构成为当下架构演进最热的趋势,将数据仓库的高性能与管理能力与数据湖的灵活性相互融合。/湖仓一体概念图运行监控MetaDataAPIs(SQL.declarativeAPIs)湖仓一体LakeHouse00企业创建数据仓库来支持商业智能,主要场景包括编制报表、发布下游数据集市(DataMarts),以及支持自助式商业智能等。数据湖来自于数据科学对数据的探索,主要场景包括通过快速实验创建和检验假设,以及利用半结构化和非结构化数据等。KeenDataLakeHouse的最佳实践是基于存算分离架构来构建。存算分离最大的问题在于网络,特别
6、是对于高频访问的数仓数据,网络性能至关重要。实现Lakehouse的可选方案很多,比如Delta,Hudi,Icebergo虽然三者侧重点有所不同,但是都具备数据湖通用的一些功能,比如:统一元数据管理、支持多元分析引擎、支持高阶分析和计算存储分离。数据源业务库APPAPP应用向物联网IOT如上图所示:蓝色数据流是离线数据流,实现离线数据湖能力,数据通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时流,数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse、Redis、Hbase等专题集市里
7、对外提供服务。KeenDataLakellouse有了自己的角色和定位,但是一项技术的发展壮大还不能就此停止,它还必须在完善自身功能的基础上去解决因为它的出现而导致的善后问题以及它出现之前的历史遗留问题,只有这样,它才能被真正广泛接受。比如对于已有的系统,特别是企业已经存在的庞大规模的基于HDFS存储的数据仓库和基于MPP架构的实时数据仓库系统,如何按照KeenDataLakeHouse架构来实行?二、KeenDataLakeHouse湖仓一体敏捷数据平台基于企业内的这些场景,融合数据湖和数据仓库的优势,不断优化数据架构,升级为统一数据采集层(离线、实时)、计算中心(离线、实时、机器学习)、服
8、务发布中心的KeenDataLakeHouse湖仓一体敏捷数据平台。平台安全与监控&KeberosWLDAP6Ganglia数据源统一存储批处理图形/视频/音柒服务国数据开发管理平台I49数据资产目录数据科学家数据分析师业务人员实时计算平台数据服务平台API调用数据科学平台新架构设计在具备数据湖开放文件存储灵活性的同时兼具数据仓库的使用效率,非常适合大规模下的数据集成、标准化、资产化以及数据安全管理的需求。应用层服务层资产层计算层接入层瑁目蕾理应用管理吗、19M修时文恃,入|no文件导入数据产品JQ用强化分析KasAna数据应用指耳累依.用尸,数据开KeeiFBDP数据服务平台KeenDaaS
9、数据贡产目录KeenAsset商线采集谢遇tan理APiasK数据工具大鼓报寰系0lKMnMagictWfilTtl序设计数据科学平台KeenDSPKeenearn实时数据同步KeenDsync1、统一数据集成,全界面化的数据集成能力。提供多种数据抽取方式,将生产中大量结构化和非结构化的离线、实时数据抽取到数据仓库,实现数据汇聚为数据的资产化和标准化提供数据基础。2、打通元数据,提供集团统一的元数据管理能力。提供数据库元数据管理功能,实现各种数据库和数仓的元数据无缝打通和统一管理;科杰湖仓一体敏捷数据平台将HiveMetaStore中Database映射为平台内的Rowdata,对HiveDa
10、tabase的改动会实时反应在这个Rowdata中,实现Lake+House一体化存储访问功能。3、对不同存储的数据提供统一的开发管理能力。提供多引擎计算能力,支持将多个数据存储内的数据通过HQL、Spark.MR.Shell等开发任务,进行统一开发、智能调度、数据治理和任务管理能力;同时提供跨团队大规模项目的协同开发能力,极大的提升开发效率。4、一站式、全托管、云原生智能化的敏捷数据平台能力。提供全可视化任务开发配置功能,智能解析任务依赖,并在数据处理的全流程提供数据质量和标准管理,在数据从产生到消费的全生命周期自动沉淀数据资产。5、企业级高性能、稳定性、可靠性平台云原生架构,系统基于模块化
11、、组件化、服务化构建,支持存储、服务、计算弹性伸缩。当部分设备发生故障时,仍可正常运行,满足企业对系统可用性的要求,可达99.99%以上。三、KeenDataLakeHouse敏捷数据平台的落地应用2、企业数据建设及使用效率的提升相较于传统大数据基础平台,湖仓一体的敏捷数据平台实现存算一体的升级和迭代,进行数据全链路血缘关系数据资产沉淀,形成统一公司内数据门户,大大提升企业数据资产的使用效率。3、全面支撑企业未来大规模业务智能落地湖仓一体的敏捷数据平台是一套企业级的大数据&AI基础设施,帮助企业建立数据资产、实现数据业务化、进而推进全线业务智能化,实现数据驱动下的企业数据智能创新,全面支撑企业未来大规模业务智能落地。四、小结20年的大数据发展,让我们看到了数据湖与数据仓库的不断创新与发展,也看到了湖仓一体化的技术架构为企业数据能力带来的提升。特别是云原生+大数据的时代,湖仓一体更能发挥出数据湖的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。未来,基于湖仓一体的数据架构应用将迎来爆发,以创造数据价值为核心目标,以技术驱动产品创新升级,推动大规模数据智能化落地,将成为数字化转型的一片“新蓝海”。