《数据仓库概述及特点.docx》由会员分享,可在线阅读,更多相关《数据仓库概述及特点.docx(3页珍藏版)》请在第一文库网上搜索。
1、数据仓库概述及特点目录1 .数据库和数据仓库12 .数据仓库的特点12.1.效率足够高22.2.数据质量22.3.扩展性22.4.小结31 .数据库和数据仓库数据库已经在信息技术领域有了广泛的应用,我们社会生活的各个部门,几乎都有各种各样的数据库保存着与我们的生活息息相关的各种数据。作为数据库的一个分支,数据仓库概念的提出,相对于数据库从时间上就近得多。美国信息工程WiI1iam1nmOn博士在90年代初提出了数据仓库概念的一个表述,认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。”这里的主题,是指用户使用数据仓库进行决
2、策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。2 .数据仓库的特点数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“
3、大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:2.1.效率足够高数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。2.2.数据质量数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代
4、码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。2.3.扩展性可扩展性即随着工作量的增加可以根据业主的要求扩展。数据仓库是一个集成的、面向主题的、中心化的、支持多种数据源(比如结构化、非结构化、半结构化、时间序列等)、易于查询的存储区域。作为一种大规模数据仓库,其管理和维护往往需要有针对性地设计数据建模方法、分层模型、ET1工具和规范,还需考虑可扩展性、数据质量保证、数据治理、监控等方面的问题。数据仓库的可扩展性可以说是关键,因为随着业务系统的不断发展和业务量的增长,数据仓库也会变得越来越庞大、越来越复杂,难以持续满足业务需求。而如何才能实现数
5、据仓库的可扩展性,并且在数据治理上达到一定的自动化水平呢?本文将阐述数据仓库可扩展性在企业级应用中的具体实践经验,讨论数据仓库如何从单个数据仓库逐渐演进到多维数据仓库、O1APCube,提出数据架构的优化方案,并基于这些方案提供一个可扩展的方案框架和执行指南。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。2.4,小结从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。正因为如此,广义的说,基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的,在这个系列后面的文章里,将围绕数据仓库技术,介绍现代数据仓库的主要技术和数据处理的主要步骤,讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。