2022年大数据湖仓一体技术规范.docx
《2022年大数据湖仓一体技术规范.docx》由会员分享,可在线阅读,更多相关《2022年大数据湖仓一体技术规范.docx(22页珍藏版)》请在第一文库网上搜索。
1、目录版权声明I编制说明Il前言Ill一、范围1二、缩略语1三、参考标准1四、湖仓一体技术架构 1() 统一存储2(二)统一元数据3(三)统一计算3(四)统一服务3(五)统一运维3(六)安全管理3(七)湖仓一体架构演进 3五、统一存储能力要求3(一)分布式文件系统 41 .基础能力42 .数据接入43 .数据格式44 .数据访问接口 55 .存储分级57.文件操作6(二)负载均衡功能6(三)数据缓存加速6(四)数据组织格式7六、统一元数据能力要求7(-)元数据注册8(二)数据源管理8(三)元数据采集8(四)元数据稽核8(五)元数据管理9(六)元数据服务9(七)元数据追溯和审计9七、统一计算能力要
2、求9(-)批处理引擎10(二)流处理引擎10(三)交互式查询引擎10(四)交互式分析引擎10(五)机器学习引擎11八、统一服务能力要求11(-)统一开发能力111 .通用开发能力要求112 .湖仓一体开发能力要求123 .开放对接要求12(二)统一调度能力121 .调度配置1 32 . 触发方式1 33 .任务协同调度134 .流程控制135 .容错管理13(三)统一运营能力141 .数据资产化管理142 .数据价值管理14(四)统一开放能力141 .数据服务开放管理152 .服务目录管理153 .数据开放形式15(五)统一管理能力15九、运维管理能力要求15(-)配置管理15(二)湖仓一体运
3、维 16(三)在线升级16(四)亚健康检测16(五)故障自愈16(六)日志管理17(七)北向接口 17十、安全管理能力要求17十一、湖仓一体架构平滑演进17(-)数据湖向湖仓一体演进 18(二)数据仓库向湖仓一体演进 18一、范围本文件定义了大数据湖仓一体的技术架构,以及统一存储、统一元数据、 统一计算、统一服务、运维管理、安全管理、平滑演进相关能力要求。本文件适用于大数据湖仓一体架构设计,产品研发和测评,以及企业落地 实施湖仓一体架构升级做参考。二、缩略语缩略语英文全名中文解释CDCChange Data Capture变更数据捕获,可以记录数据源的增量变动,同步到一个 或多个数据目的De
4、ItaLakeApacheDe ItaLake一种数据格式,为APaChe SPark和其他大数据引擎提供 可伸缩的ACID事务F I inkApache FlinkApache F I i nk是一个框架和分布式处理引擎,用于在无 边界和有边界数据流上进行有状态的计算HadoopApache Hadoop由Apache基金会所开发的分布式系统基础架构HDFSApache HDFSHadooP 分布式文件系统(HadooP Di str i buted F i I esystem)H i veApache H i ve基于Hadoop的一个数据仓库工具HudiApache Hud i一个开源A
5、pache Spark库,用于在Apache Hadoop上执 行诸如更新,插入和删除之类的操作IcebergApache Iceberg一种面向海量数据分析场景的开放表格式MRApache MapReduce一种编程模型,用于大规模数据集(大于1TB)的并行运 算TezApache TezApache支持DAG作业的开源计算框架SparkApache Spark基于内存计算的开源的集群计算系统三、参考标准GB/T 37939-2019信息安全技术网络存储安全技术要求YD/T 4029-2022计算存储分离架构的分布式存储技术要求四、湖仓一体技术架构湖仓一体是一种新的大数据架构,融合数据湖与数
6、据仓库的优势,实现数 据湖和数据仓库的数据无缝打通,提升数据分析效率,同时还能减小数据冗余 和搬迁,降低成本,支撑企业大数据系统高效运行。湖仓一体结合云原生技术,采用存算分离架构,提供统一开放的存储接口, 对接多样的计算引擎,实现存储合和计算灵活规划和部署,资源弹性、按需伸 缩,从而有效简化企业的数据基础设施架构。湖仓一体技术架构如下图所示:在该架构中,数据统一存储,提供统一元数据,将大数据、数据仓库、机 器学习、等技术进行整合,形成一套数据服务系统,将数据仓库和数据湖的价 值进行叠加,更好地分析、整合数据。该架构可以很好的克服数据重力,让数据湖和数据仓库的数据可以自由流 动,用户可以便捷地调
7、取数据。借助湖仓一体,企业可高效处理数仓内的热数据与数据湖中的历史数据, 并生成丰富的数据集,无需做数据搬移。湖仓一体技术架构由以下七部分组成。()统一存储接入多种数据,提供多种数据存储格式,包括数据湖的数据格式和数据仓 库的数据格式,可以存储任意规模的结构化、半结构化、非结构化数据。通过 通用的数据组织格式,如HUdi、Icebergs DeItLake等,实现数据的统一存储 访问。(-)统一元数据通过采集、管理数据湖与数据仓库中的元数据,构建统一元数据目录和数 据视图,实现数据湖与数据仓库数据共享,提供湖仓一体化的元数据服务。(三)统一计算集成批处理引擎、流处理引擎、交互式查询引擎、交互式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 数据 一体 技术规范
