元数据管理在数据仓库的实践应用.docx
《元数据管理在数据仓库的实践应用.docx》由会员分享,可在线阅读,更多相关《元数据管理在数据仓库的实践应用.docx(10页珍藏版)》请在第一文库网上搜索。
1、元数据管理在数据仓库的实践应用数仓宝贝库2021Tl-16 18:22收录于合集#数据仓库19个点击上方蓝字关注我们 数仓宝贝库,带你学数据!导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。什么是数据仓库的元数据管理1、什么是元数据?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数据组即可被称为元数据。举几个简单例子:如果
2、一本书是一个数据”,那么它的书名、封面、出版社、作者、总页码就是它的元数据。如果一个电影是一个数据,那么它的总时长、制作人、总导演、演员列表就是它的元数据。如果数据库中某个表是一个数据,那么它的列名、列类型、列长度、表注释就是它的“元数据”。只要有一类事物,就可以定义它的“元数据”。大多数时候,元数据可以根据代表意义的不同分为业务元数据和技术元数据。2、什么是数据仓库?数据仓库,由数据仓库之父比尔恩门(Billlnmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法
3、如联机分析处理、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(日S)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(Bl) o3、什么是数据仓库的元数据管理?抽取方法映射、传输规则转换规则汇总规则效据仓库建模具数据定义数据仃效值数据仓庠模型数据清洗规则源数据内部数据外部数据源系统逻辑模型源系统物理模型源/外部数据结构定义元数据数据质量数据组织、位询定义数据导出属性映射相关人员元数据管理员元数据分析员数据仓库用户前端匚具查询工具报表工具OLAPLH数据挖掘数仓中的元数据,主要记录各
4、主题的定义、不同层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。为什么数据仓库要进行元数据管理1、建设数据仓库所必须数据仓库是由外部数据、业务数据以及文档资料通过某些ETL工具得到的,如果没有一个明确、清晰的规则,根本不可能实现这个过程。2、帮助快速理解数仓系统一方面,数据仓库本质上是一个部门甚至一个公司的重要项目,开发时间
5、冗长。中间不可避免的会产生人员流动,如果没有清楚的元数据,那会对整个系统乃和整个项目造成重大影响;另一方面,数据仓库做为整个部门、公司的分析数据出口,并不仅仅对数据人员服务。DM层对业务人员,DIM对其他开发人员都是不可避免的。如果有清楚的无数据来说明数仓系统,就会节约双方大量的沟通时间。3、高效精准沟通一方面,元数据中的管理元数据会记录不同用户、角色、部门的数据权限。如果有数据需要进行通知,则可以快速查询系统进行群发邮件等方式进行沟通,从而避免了造成沟通环节的缺人和多人情况发生。另一方面,在与产品沟通业务或是与研发沟通接口时,可以根据业务元数据,确认彼此沟通的指标、维度含义。从而在根源上避免
6、交流的歧义。进而提高沟通效率。4、保证数据质量理想的元数据做到了对数据仓库结构的描述,仓库模式试图,维,度量,层次结构,到处数据库的定义,以及数据集市的位置和内容。因此,我们可以很确定的判断哪些数据是肯定准确无误的、哪些数据是可能有问题的、哪些数据是肯定有问题的。简单的说就是每一个字段都应该有它的取值范围、业务定义等信息,元数据定义好了自然就可以应用到数据质量检测、评估等方面,进而通过数据质量管理流程真正提高企业的数据质量。5、降低数据系统建设成本假如元数据建设完备,所以取得信息会更准确快捷,使数据系统建设不返工或少返工,减少分析工作量,加强各方的统一理解以及沟通效率,进而使开发成本最小。6、
7、快速分析变更影响因元数据被集中维护并管理引用关系,当发生变更时,可以通过元数据管理系统以实时分析出其所影响的业务功能、应用系统、涉及人员、是否涉及监管等影响信息。7、为未来做好准备大数据、人工智能、数据湖、数据中台、商业智能等企业的战略级应用系统能够依赖良好的元数据管理而发挥出其应有的效果。数据仓库中元数据的组成元数据贯穿整个数据仓库,根据情况可以分为三种:业务元数据、技术元数据和管理元数据。业务元数据元数据知识库技术元数据1、业务元数=业务元数据主要描述“数据”背后的业务含义,从业务角度描述业务领域的相关概念、关系一一包括业务术语和业务规则。主题定义:每段ETL、表背后的归属业务主题。业务描
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据管理 数据仓库 实践 应用