大数据云原生技术发展研究报告2023.docx
《大数据云原生技术发展研究报告2023.docx》由会员分享,可在线阅读,更多相关《大数据云原生技术发展研究报告2023.docx(49页珍藏版)》请在第一文库网上搜索。
1、一、大数据平台与云原生技术的发展与演进1(一)数据平台的发展与演进 1(二)云原生技术简述 9(三)大数据与云原生结合分析12二、传统大数据平台的需求与痛点15(一)交付运维成本高 16(二)资源利用率低17(三)系统迭代与兼容性挑战18(四)安全相关挑战 19三、云原生技术解决大数据问题的思路 20(一)云原生技术提升运维交付质量与效率20(二)云原生技术提升集群资源使用率和弹性22(三)云原生技术提升大数据平台迭代效率26(四)云原生技术提升大数据安全和隐私保护27(五)云原生技术带来的其它好处 31(六)大数据云原生引入的新挑战35四、大数据云原生技术的架构简述40(一)云原生大数据平台
2、的架构原则40(二)云原生大数据平台的参考架构 41五、大数据云原生的未来发展和战略建议44(一)技术发展方向 44(二)针对行业的建议44(三)针对企业和用户的建议 45六、参考文献46一、大数据平台与云原生技术的发展与演进(一)数据平台的发展与演进需求催生技术革新,在海量数据需求的推动下,数据平台架构持 续演进,经过数十年的发展,历经了数据库、数据仓库、数据湖、湖 仓一体等概念。这里按出现顺序简述:(其中关于数据湖和湖仓一体 目前业界有多种不同的定义,这里我们采用其中一种定义说明)分析关系型数据库数据仓库叫f f i结构化数据结构化、半结构化、非结构化数据数据仓库数据库数据仓库数据湖来源:
3、CCSATC601大数据技术标准推进委员会图1:数据分析技术演进图数据库(Data Base):自1980年代初至中期起,数据管理工具主要呈现为数据库形式, 以面向事务交易的OLTP场景为主,数据分析功能则作为辅助。这些 数据库主要用于向管理层提供固定报表,支持宏观管理决策。它们通 过标准SQL提供数据分析能力,主要代表产品包括OraCIe、Sql Server Mysql 等。以前:提升单机性能:IBM小型机、EMC企业级存储、OraCIe企业级数据库ORACL于己三三三三车没有专门面向数据分析 场景的产品。当时还是 以面向事务交易场景为 主,数据分析仅作为附 带提供的场景。图2早期数据库阶
4、段系统架构数据仓库(Data Warehouse):随着互联网的快速普及,门户、搜索引擎、百科等应用快速增长, 数据量呈爆发式增长,原有的单个关系型数据库架构无法支撑庞大的 数据量。20世纪90年代数据仓库理论被提出,核心是基于OLTP系 统的数据源,根据联机分析处理OLAP场景诉求,将数据经过数仓建 模形成ODS、DWD、DWS、DM 等不同数据层,每层都需要进行清 洗、加工、整合等数据开发(ETL)工作,并最终加载到关系型数据 库中。数据源ETLM传统 企业数据仓库来源:云原生产业联盟图3: OLAP系统建设数据仓库架构是为了解决单个关系型数据库架构无法支撑庞大 数据量的数据存储分析问题。
5、传统数据仓库多为MPP(Massively ParaIIelProCeSSOr)架构,代表产品有 Teradata、GreenPlUm 等,当前 MPP架构依然为新型数仓的重要选择,比如CliCkHOuse, Doris, StarRocks 等。随着HadOoP技术的成熟与普及,基于HadooP自建离线数据仓 库(HiVe)是常见的大数据平台之上数据仓库方案,在目前依然发挥着 重要的作用。数据湖(DataLake):随着移动互联网的飞速发展,半结构化、非结构化数据的存储、 计算需求日益突出,对数据平台提出了新的要求。以开源Hadoop体系为代表的开放式HDFS存储(或S3) 开放的 文件格式
6、、开放的元数据服务(HiVeMetaStOre等)以及多种引擎(Hive、 Spark Flink PreStO等)协同工作的模式,形成了数据湖的雏形。数据迁移分布式日志收集系统Flume分布式消息系统Kafka数据格式转化工具Sqoop集群管理与调度数据存储与管理数据处理分布式文件系统HDFS分布式列存数据库HBase关系式数据库MySQI数据计算数据仓库(数据查询)Hive分布式计算引擎MapReduce分布式实时计算系统Storm集群管理协调分布式资源管理器YARN集群协调分布式协调系统Zookeeper通用大数据快速处理引擎SDark分布式批流一体计算框架Flink数据分析 挖掘 查询
7、通用大数据快速处理引擎Spark分布式批流一体计算框架数据仓库(数据查询).FlinkHive来源:云原生产业联盟 图4: Hadoop生态系统重要组件2010年,数据湖概念被提出,数据湖是一种支持结构化、半结 构化、非结构化等数据类型大规模存储和计算的系统架构。数据湖与 数据仓库的主要区别在于数据仓库中数据在进入仓库之前是需要实 现归类,而数据湖是把大量原始数据通过廉价存储保存下来。数据湖 架构的特点可总结为:低成本、原始数据、需灵活使用、面向任务数 据绑定、不提前定义数据模型。表1数据湖与数据仓库对比表差异项数据湖数据仓库数据类型所有数据类型历史的、结构化的数据Schema读取型SChem
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 原生 技术发展 研究 报告 2023
