《一文读懂选择数据湖还是数据仓库.docx》由会员分享,可在线阅读,更多相关《一文读懂选择数据湖还是数据仓库.docx(15页珍藏版)》请在第一文库网上搜索。
1、一文读懂选择数据湖还是数据仓库目录编者按11 .数据仓库、数据湖的概念和区别21. 1.数据仓库21. 1.1,数据仓库概念21.1.2.数据仓库特点21.1.3.O1TP-O1AP31. 1.4.数据仓库的作用41.2. 数据湖81.2. 1.数据湖概念81.3. 2.数据湖内容101.4. 3.数据湖的特点101.3. 对比111.4. 小结122 .揭穿关于数据湖和数据仓库的三大神话122.1. 只需要数据湖或数据仓库中的一个132.2. 数据湖是流行趋势,数据仓库不是人工智能132.3. 3.数据仓库易于使用,而数据湖很复杂133 .数据湖和数据仓库:用例144 .未来该如何选择14编
2、者按今天,每秒都在生成TB和PB的数据,为这些海量数据集寻找存储解决方案至关重要。复杂的机器和技术现在收集了令人难以置信的广泛数据一一每天超过2.5万亿字节!一来自设备传感器、日志、用户、消费者和其他地方。数据存储并不像以前看起来那么简单。在管理和存储数据时,数据管理者需要考虑使用数据湖或数据仓库作为存储库。随着数据量、速度和种类的增加,选择合适的数据平台来管理数据从未像现在这样重要。它应该是迄今为止满足我们需求的古老数据仓库,还是应该是承诺支持任何类型工作负载的任何类型数据的数据湖?在这里,我们深入探讨了这两个平台。1 .数据仓库、数据湖的概念和区别1.1. 数据仓库1.1.1. 数据仓库概
3、念数据仓库由比尔恩门(BiIUnmon,数据仓库之父)于1990年提出,主要功能是将企业系统联机事务处理(O1TP)长期壁垒的大量数据,通过数据仓库理论支持所持有的数据存储结构,做有系统的分析整理。底氮都鎏端擦理随着企业的发展,业务系统的数据不断激增,这些存储在企业业务数据库中(也就是关系型数据库OraC1e,MicrosoftSQ1Sever,MySQ1等)数据会随着时间的积累越来越多,会使业务数据库会有一定的负载,导致业务系统的运行效率低,且这些数据中有很大一部分是冷数据,而我们业务系统一般对我们近期的数据,也就是热数据调用的比较频繁,对冷数据使用频率较低。同时随着企业数据驱动业务概念的兴
4、起,企业需要将各业务部门的业务数据提取出来进行数据分析与挖掘,辅助高层进行分析与决策,但各部门需求的数据种类千差万别,接口错综复杂,过多的数据查询脚本以及接口的接入导致业务数据库的稳定性降低。为了避免冷数据与历史数据的积压对我们业务数据库效能产生影响,企业需要定期将冷数据从业务数据库中转移出来存储到一个专门存放历史数据的仓库里面,各部门可以根据自身业务特性对外提供统一的数据服务,这个仓库就是数据仓库。1.1.2.数据仓库特点数据仓库(DataWarehOeSe)的特点:面向主题的、集成的、稳定的、反映历史数据变化的。面向主题的:数据仓库是用来分析特点主题域的,所以说数据仓库是面向主题的。例如,
5、电商行业的主题域通常分为交易域、会员域、商品域等。集成的:数据仓库集成了多个数据源,同一主题或产品相关数据可能来自不同的系统不同类型的数据库,日志文件等。稳定的:数据一旦进入数据仓库,则不可改变。数据仓库的历史数据是不应该被更新的,同时存储稳定性较强反映历史数据变化的:数据仓库保存了长期的历史数据,这点相对O1TP的数据库而言。因为性能考虑后者统筹保存近期的热数据。1.1.3.O1TP与O1APIJO1TP与O1AP概念数据处理大致可以分成两大类:联机事务处理O1TP(on-1inetransactionprocessing)联机分析处理O1AP(On1ineAna1ytica1Process
6、ing)。O1TP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。O1AP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。O1TP(On-1ineTransactionProcessing)我机事务处a实时系统(ReaItimeSystem)系统请求响应性能人机交互的应用系统对用户操作快速响应数据总是保持在最新状态数据级小(IOOM-GB)软件技术基于数仓多维模型面向分析的操作深入理解数据数据级较大(IoOGB-TB)2)01TP与O1AP区另IJ酶O1TPO1AP朋操作人员,底层管理人员决策人员,高级管理人员W日糠分析决策D
7、Bifii+面向应用面向主题雌当前的,最新的细节的,二蟒分立的历史的,聚集的,多维的集成的,统T9W读/写数十条记录读上百万条记录工作单位简单的事务fiD用户数上千个上百万个DB大小IOOMB-GBIOOBG-TB时间要求具有实时性对时间的要求不严格数据仓库O1TP系统强调数据库内存效率,强调内存各种指标的命令率,绑定变量,并发操作等。O1AP系统则强调数据分析,强调SQ1执行市场,磁盘I/O,分区等。3)01AP与数据仓库的联系O1AP和数仓的关系是依赖互补的,一般以数据仓库作为基础,既从数据仓库中抽取出详细数据的一个子集并经过必要的聚集存储到O1AP存储中供数据分析工具读取。1.1.4.数
8、据仓库的作用数据仓库将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。如下图所示:各个系统的元数据通过ET1同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。什么是ET17(extraction-transformation-1oad抽取转换加载)传统的数据仓库集成处理架构是ET1,利用ET1平台的能力,E=从源数据DatawarehouseExtract-库抽取数据,1=将数据清洗(不符合规则的数据)、转化(对表按照业务需求
9、进行不同维度、不同颗粒度、不同业务规则计算进行统计),T=将加工好的表以增量、全量、不同时间加载到数据仓库。TransformC1oudSourcesTensorf1ow等。相比之下,数据湖是机器学习用例的理想选择。它们不仅提供基于SQ1的数据访问,还通过PythonSca1a、Java等语言为ApacheSpark和Tensorf1ow等编程分布式数据处理框架提供原生支持。数据仓库需要在数据用于分析之前顺序ET1摄取和转换数据,因此它们对于流式分析效率低下。一些数据仓库支持“微批处理”以经常以小增量收集数据。这种流到批处理的转换增加了数据到达与用于分析之间的时间,使得数据仓库不适用于多种形式的流分析。DATA1AKEvsDATAWAREHOUSEDataUsersVUse4曼4,1argeCMMUt*corc*nVMIwwunnBG2orttoOrpUfryeSrJdteonrrrnorw.UrfmutofVmcnMtwvd4jhMovedvwto(JR39VHM41RawDaMUftMcortUrMenMtWvWmtWv