国外数据质量管理研究综述.docx
《国外数据质量管理研究综述.docx》由会员分享,可在线阅读,更多相关《国外数据质量管理研究综述.docx(9页珍藏版)》请在第一文库网上搜索。
1、国外数据质量管理研究综述(2008-10-16 10:39:55)1引言数据(data)是为反映客观世界而记录下来的可以鉴别的数字或符号。如数字、文字、图形、图像、声音等。随着信息技术应用的不断普及,信息系统中数据质量问题受到越来越多的关注,特别是统计、管理和计算机等领域。数据质量问题的研究,在统计领域始于I960年代末期,管理领域始于1980年代初,计算机领域始于1990年代初。本文对国外近十年管理领域的数据质量研究进行总结和评述,并提出进一步的研究方向。文章结构的第二部分是数据质量定义和质量维度,第三部分是数据产品制造过程,第四部分是数据质量的测量和评估,第五部分是数据质量管理体系,第六是
2、结束语。2数据质量的定义和维度从20世纪50年代开始,人们从不同的角度定义质量2,基本上可以分为五种:基于消费者的,基于制造的,基于产品的,基于价值的,先验的。比较流行的定义有:质量是一组固有特性满足要求的程度;质量是使用的适合性7质量意谓对要求的符合性。在许多文献中,数据质量DQ(data quality)与信息质量IQ( informationquality)两个术语通用,定义多种多样。文献7将数据质量定义为“使用的适合性”,此定义的基础是当时全面质量管理中广泛接受的质量概念,因此关于数据质量的这个定义也被广泛接受。文献8将数据质量定义为“一个信息系统表达的数据视图与客观世界同一数据的距离
3、”。有些文献将DQ直接定义为一组属性(特征),如正确性、适时性、完全性、一致性和相关性等。采用文献7的定义,数据质量判断依赖于使用数据的个体,不同环境下不同人员的“使用的适合性”不同,数据质量是相对的,不能独立于使用数据的消费者来评价数据质量。因此,识别数据质量维度成为有价值的研究工作。数据质量维度是一组表达数据质量构成或者数据质量单一方面的数据质量属性。文献7采取二阶段调查方法识别出4类共15个数据质量维度。固有质量包括:正确性(没有错误),客观性,可信性,声誉。可访问性质量包括:可访问性,访问安全。语境质量包括:相关性,增值性,及时性,全面性,数据量。表达质量包括:可解释性,易理解性,简明
4、性,一致性。文献10识别出6个Web数据数据特征共32个子特征。功能性特征包括:适宜性,正确性,互用性,灵活性,安全,可追溯性。可靠性特征包括:成熟度,可恢复性,可用性,可降解性,容错。效率特征包括:时间行为,资源行为。合用性特征包括:可理解性,可学习性,可操作性,乐趣,清晰性,帮助性,直率性,习俗化,用户友好。维护特征包括:可分析性,可改变性,稳定性,可测试性,可管理性,可复用性。可移植性特征包括:适应性,一致性,可替代性,可安装性文献11提出6个Web数据质量标准,包括:权威,正确性,客观性,流通,定位,导向。文献12在文献7的基础上,采用调查方法得到Web数据质量维度。固有质量指正确性和
5、内容错误,包括:准确性,可用性,相关超级链接。语境质量指提供作者信息。表达质量包括:组织,视觉效果,版面特点,一致性,活泼有吸引力,内容混乱。可访问性质量指提供导航工具。文献13以符号学为基础,建立4个符号学层次共11个质量维度。句法层次的维度是良好定义或者正规的句法。语义层次的维度包括:易理解,明确,有意味,恰当。语用层次的维度包括:适时,简明,易于访问,声誉好。社会层次的维度包括:获知,明白差异。每个维度都有具体的改进策略。文献14给出3类共22个评估标准。主观类包括:可信性,简明表达,可解释性,相关性,声誉,可理解性,增值。客观类包括:完全性,客户支持,文档,客观性,价格,可靠性,安全,
6、适时性,可验证性。过程类包括:精确性,数据量,可用性,表达一致性,等待时间,响应时间。对每个标准有特定的评估方法。文献15识别出5类28个数据质量维度。人类工程学质量类维度包括:易于导航,舒适性,可学习性,视觉信号,音频信号。可访问性质量类维度包括:技术访问,系统可用性,技术安全,数据可访问性,数据共享,数据可转换性。处理质量类维度包括:可控性,容错,适应性,系统反馈,效率,响应。语境质量类维度包括:增值,相关性,适时性,完全性,适当的数据。表达质量类维度包括:可解释性,一致性,简明性,结构,可读性,对照。文献16给出6个Web数据检索的质量度量,包括:流通,可用性,信噪比,权威,流行,内聚性
7、。文献17给出2种4类共16个Web数据质量维度,包括:理解,正确,清晰,适用,简明,一致,恰当,流通,方便,适时,可追溯,交互,可访问,安全,可维护,快捷。文献18对包括上述9个数据质量维度方案在内的12个方案进行了分析和评述,12个方案中有3个是引用另外两个的成果。文献19对包括文献18的12个方案在内的13个方案进行分析和评述。美国国家统计科学研究所(NISS)关于数据质量的研究表明加:(1)数据是产品。(2)作为产品,数据有质量,这个质量来自产生数据的过程。(3)数据质量原则上可以测量和改进。(4)数据质量的重要性正在增加,但不平衡。(5)在大学里,实质上不存在数据质量作为一个重要研究
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国外 数据 质量管理 研究 综述