最强最全面的数仓建设规范指南.docx
《最强最全面的数仓建设规范指南.docx》由会员分享,可在线阅读,更多相关《最强最全面的数仓建设规范指南.docx(42页珍藏版)》请在第一文库网上搜索。
1、最强最全面的数仓建设规范指南(纯干货建议收藏)数仓宝贝库2021-11-24 18:18以下文章来源于五分钟学大数据,作者园陌X 、五分钟学大数据LEARN BIG DATA IN FIVE MINUTES五分钟学大数据.大数据领域原创技术号,专注于大数据研究,包括Hadoop. Flink. Spark、Kafka.Hive. HBase等,深入大数据技术原理,数据仓库,数据治理,前沿大数据技术点击上方蓝字关注我们 怎数仓宝贝库,带你学数据!导读:本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!录:一.数据模型架构
2、原则1. 数仓分层原则2. 主题域划分原则3. 数据模型设计原则二.数仓公共开发规范1. 层次调用规范2. 数据类型规范3. 数据冗余规范4. NULL字段处理规范5. 指标口径规范6. 数据表处理规范7. 表的生命周期管理三、数仓各层开发规范1. ODS层设计规范2. 公共维度层设计规范3. DWD明细层设计规范4. DWS公共汇总层设计规范1. 词根设计规范2. 表命名规范3. 指标命名规范一、数据模型架构原则1 .数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目
3、前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看到内在的规律,不能为了分层而分层,没有最好的,只有适合的。分层是以解决当前业务快速的数据支撑为目的,为未来抽象出共性的框架并能够赋能给其他业务线,同时为业务发展提供稳定、准确的数据支撑,并能够按照已有的模型为新业务发展提供方向,也就是数据驱动和赋能。一个好的分层架构,要有以下好处:1. 清晰数据结构;2. 数据血缘追踪;3. 减少重复开发;4. 数据关系条理化;5. 屏蔽原始数据的影响。数仓分层要结合公司业务进行,并且需要清晰明确各层职责,一般采用如下分层结构:数仓分层APR数据应用层,面向不同部门,不同业务需求进行定制化开发,提供
4、报表数据DM数据轻汇总层,建设通用性维度和指标,3明细数据,部分数据为汇总数据,主要增鬟DW数据明细层,对数据进行主题划分,分为马实表和维度表,并对数据进行规范处理ODS数据源层,仅导入业务方数据,不做任何攵理,相当于入大数据平台前的)京 诲分数据分层架构数仓建模在哪层建设呢?我们以维度建模为例,建模是在数据源层的下一层进行建设在上图中,就是在DW层进行数仓建模,所以DW层是数仓建设的核心层。下面详细阐述下每层建设规范,和上图的分层稍微有些区别:1.数据源层:ODS (Operational Data Store)ODS层,是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于
5、这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。2 .数据仓库层:DW (Data Warehouse)数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从ODS层中获得的数据按照主题建立各种数据模型。DW 层又细分为 DWD( Data Warehouse Detail )层、DWM( Data WarehouseMiddle )层和 DWS ( Data Warehouse Servce )层。1)数据明细层:DWD (Data Warehouse Detail)该层一般保持和ODS层一样的数据粒度,并
6、且提供一定的数据质量保证。DWD层要做的就是将数据清理、整合.规范化.脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不规范的数据都会被处理。同时,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度i化至事实表中,减少事实表和维表的关联。另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性。2)数据中间层:DWM (Data WareHouse Middle)该层会在DWD层的数据基础上,数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。在实际计算中,如
7、果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定,也可以去掉DWM这一层,只留DWS层,将所有的数据再放在DWS亦可。3)数据服务层:DWS (Data WareHouse Servce)DWS层为公共汇总层,会进行轻度汇总,粒度比明细数据稍粗,基于DWD层上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。DWS层应覆盖80%的应用场景。又称数据集市或宽表。按照业务划分,如主题域流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最强 全面 建设 规范 指南