02大厂学苑大数据 & 人工智能数仓.docx
《02大厂学苑大数据 & 人工智能数仓.docx》由会员分享,可在线阅读,更多相关《02大厂学苑大数据 & 人工智能数仓.docx(19页珍藏版)》请在第一文库网上搜索。
1、K大厂学髓rr。AcHANGcOM大厂学苑一大数据&人工智能数仓版本:V1.0第1章数据仓库入门1.1 数据仓库概念从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。比如生活中,让你从货架上取货物和让你从仓库中取货物,是不是直观感受不一样,是不是从仓库中取货物会感觉比较麻烦,为什么?就是因为我们一般理解仓库的概念就是大,和多,咱们这里要说的数据仓库也是这个概念,数据量大,数据类型多。但是一个仓库中的东西如果是杂乱无章的话,找起来是不是就会更费劲了,对吗?所以一般的仓库都会有管理员,将不同的货物分门别类的管理起来。咱们这里讲的
2、数据仓库也是同样道理,会将数据根据实际的环境划分不同的层次,保存不同的数据。早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到当下的移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。如何将这些数据收集起来并加以利用,就是我们开发人员需要特别关心的了。从数据仓库“开始到现在的“大数据,中间经历了太多的知识、架构模式的演进与变革,数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库其
3、实是一套体系,他不是一门特定的什么技术,而是整合了很多己有的技术,来更好地组织和管理数据。数据仓库不等同于“海量数据。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据+狂杂类型数据基础上的数据分析、数据存储,数据展示等一系列的技术体系。1.2 数据仓库&数据库数据仓库和数据库从文字上来看,是比较相似的,所以一般不是很好区分,说到他们的区别,我们一般会提到O1TP和O1AP。O1TP:On-1ineTransactionProcessing,联机事务处理,主要是业务数据,需要考虑高并发、考虑事务O1AP:On-1ineAna1ytica1Proc
4、essing,联机分析处理,重点主要是面向分析,会产生大量的查询,一般很少涉及增删改It#ITDAeHANGCOM好了,举个例子,你现在有一个3层的抽屉,旁边有一个屋子,是资料库。那么如果别人现在给你一份文件,你会考虑将这份文件放在哪里呢?此时,就需要考虑不同的场景了,如果这份文件是平时经常用的,或者需要频繁的进行一些修改,参考的,那么一般就会放到手边的抽屉中,如果是一个需要归档的文件或以后会很少打开的文件,那么可以考虑将这份文件放到资料库中,是吗?如果这里的抽屉类比为数据库,将资料库类比为数据仓库,你懂了吗?1.3 数据仓库&数据集市 数据仓库:是一个集成的面向主题的数据集合,设计的目的是支
5、持DSS(决策支持系统)的功能,在数据仓库里,每个数据单元都和特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据。是一个面向主题的(SubjectOriented),集成的(Integrated)相对稳定的(Non-Vo1ati1e)反映历史变化的(TimeVariant)数据集合,用以支持经营管理中的决策制定过程。数据仓库是重建企业数据流和信息流的过程,在这个过程中,构造企业的决策支持环境,以区别原来的业务系统所构建的操作型环境。数据仓库的价值并不是你在仓库中所存储的数据量的多少,而关键在于从仓库中能够获得的信息和分析结果的质量。 数据集市:是一个小型的部门或工作组级别的数据仓库。有
6、两种类型的数据集市一一独立型和从属型。独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据仓库获取数据。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定。独立的建立多个数据集市,企业只会又增加了一些信息孤岛,仍然不能以整个企业的视图分析数据,数据集市为各个部门或工作组所用,各个集市之间又会存在不一致性。当然,独立型数据集市是一种既成事实,为满足特定用户的需求而建立的一种分析型环境,但是,从长远的观点看,是一种权宜之计,必然会被企业级的数据仓库所取代。数据仓库和数据集市之间的区别:数据仓库中数据结构采用的规范化模式(关系数据库设计理论),数据集市的数据结构采用的星型
7、模式(多维数据库设计理论)。数据仓库中数据的粒度比数据集市的细数据仓库数据集市数据来源遗留系统、O1TP系统、外部数协数据仓库范围企业级部门级或I作组级主题企业主题部门或特殊的分析主题数据粒度我细的粒度较粗的粒度数据结构规范化结构(第3范式)星仪模式、雪片模式、或两者混合历史数据人量:的历史数据适度的历史数据优化处理海量数据数据探索便访问和分析快速查询索引高度索引高度索引1.4 数据仓库&数据湖数据仓库(DataWarehouse):是一个面向主题的(SUbjeCtoriented)、集成的(Integrated)、相对稳定的(Non-Vo1atiIe)反映历史变化的(TimeVariant)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 02 大厂学苑 大数据 人工智能 数仓 数据