新一代大数据技术架构LakeHouse湖仓一体.docx
《新一代大数据技术架构LakeHouse湖仓一体.docx》由会员分享,可在线阅读,更多相关《新一代大数据技术架构LakeHouse湖仓一体.docx(10页珍藏版)》请在第一文库网上搜索。
1、新一代大数据技术架构LakeHouse湖仓一体摘要:当前的大数据技术应用趋势表明,客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和0RC格式的外部表支持,这使数仓用户可以从相同的SQL引擎查询数据湖表,但它不会使数据湖表更易于管理,也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse(湖仓一体)作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的下一站灯塔。KeenDataLakeHouse(湖仓一体)可定义为基于低成本,可直接访问存储的数据管理系统,它结合了数据湖和数据仓库的主要优势,开放格
2、式的低成本存储可通过前者的各种系统访问,而后者则具有强大的管理和优化功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为企业的数据治理带来更多的便利性。一、企业数据架构发展史第一阶段:传统数仓传统数据仓库是指从业务数据中创建信息数据库,将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策支持和商业智能,它是单个数据存储,出于分析性报告和决策支持目的而创建。传统数仓存储的数据类型,主要是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。针对实时数据处理,非
3、结构化数据处理能力较弱,以及在数据量支持方面相对有限。1. 2第二阶段:数据湖数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。结构化数据半结构化数据非结构化数据数据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后
4、的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。1.3数据湖与数据仓库的区别:在储存方面上:数据湖中的数据为非结构化的,所有数据都保持原始形式仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中:数据湖捕获半结构化和非结构化数据。而数据仓库则只捕获结构化数据并将其按模式组织。数据湖的目的是非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就非常适用于BI分析等操作用途,因为它具有高度结构化。1. 4第三阶段:KeenData
5、LakeHouse(湖仓一体)KeenDataLakeHouse架构成为当下架构演进最热的趋势,将数据仓库的高性能与管理能力与数据湖的灵活性相互融合。/湖仓一体概念图运行监控MetaDataAPIs(SQL.declarativeAPIs)湖仓一体LakeHouse00企业创建数据仓库来支持商业智能,主要场景包括编制报表、发布下游数据集市(DataMarts),以及支持自助式商业智能等。数据湖来自于数据科学对数据的探索,主要场景包括通过快速实验创建和检验假设,以及利用半结构化和非结构化数据等。KeenDataLakeHouse的最佳实践是基于存算分离架构来构建。存算分离最大的问题在于网络,特别
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新一代 数据 技术 架构 LakeHouse 一体
![提示](https://www.001doc.com/images/bang_tan.gif)