《数据挖掘概念与技术》期末考试名词解释整理.docx
《《数据挖掘概念与技术》期末考试名词解释整理.docx》由会员分享,可在线阅读,更多相关《《数据挖掘概念与技术》期末考试名词解释整理.docx(5页珍藏版)》请在第一文库网上搜索。
1、数据仓库的概念及特点:数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的,集成的,稳定的,不可更新的,随时间变化的,分层次的,多维的集成数据集合。特点:1主题与面向主题;2数据的集成性;3数据的不可更新性;4数据的时态性。为什么要建立数据仓库:为了使数据能够发挥其最佳效用,更好的为用户服务,才要建立数据仓库。它可以从各信息源提取决策需要的数据,加工后,存储到数据仓库中;并且可以提供用户的查询和决策分析的依据。数据挖掘及其特点:DM是从大量的,不完全的,有噪声的,模糊的,随机的应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。特点:
2、1处理的数据规模十分庞大;2由于用户不能形成精确地查询要求,因此需要靠数据挖掘技术来寻找其可能感兴趣的东西;3DM对数据的迅速变化做出快速响应,以提供决策支持信息;4DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则;5DM既要发现潜在规则还要管理和维护规则,随着新数据的不断加入,规则需要不断更新。数据挖掘的基本过程,数据挖掘有几步?基本过程:1数据准备:本阶段又可进一步细分成数据集成、数据选择和预分析。2挖掘:数据挖掘处理器综合利用前面提到的多种数据挖掘方法分析数据。3表述:与检验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给
3、用户,这是可以利用可视化工具。4评价:如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。步骤:问题定义-发现信息-制定计划-采取行动-检测效果。比较数据仓库基本体系结构的特点:1两层:顶层:前端工具,底层DW服务器;2实时监测数据源发生的变化,便于集成到DW。数据挖掘按任务分为描述和预测式数据挖掘两种。知识发现(数据挖掘)的基本过程:数据选择和预分析-挖掘(最主要内容)-表述-评价。粒度的概念及其意义?粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小。意义:数据仓库开发中面临着的一个单一设计问题就是粒度的确定的合理与否影响存放数据仓
4、库中的数据量大小,影响数据仓库所能回答的查询类型。粒度的合理确定还直接影响其他方面的设计,所以要在数据量的大小和详细程度之间做出权衡。元数据是关于数据的数据,是对数据的结构,内容,键码,索引等的一种描述。是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为技术元数据和商业元数据。什么是联机分析处理,有什么特性?联机分析(O1AP)是共享多维信息的针对特定问题的联机数据。数据仓库的数据模型有哪些?并比较其不同点。数据仓库的数据模型包括:星型数据模型、雪花型数据模型、星群型数据模型。其中星型模型包括一个中央表(事实表)和一系列的附表(维度表),附表环绕中央表,并产生关系,但不关联。雪花
5、型数据模型设计其附表(维度表)被进一步规范化,分割出额外的表,产生的图形像雪花状。这种形式易于维护并节省存储空间。但表之间的关联多,影响系统的性能,其使用没有星型构架广泛。星群型架构的数据模型设计是多个主表(事实表)共享附表(维度表),其是星型的集合。数据建模的主要内容:1必须回答紧迫的问题2必须有正确的事实表3必须有正确的维表按最终用户的业务术语进行描述和表达4必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程5对于事实表,应该有正确的“粒度”6根据需要存储正确长度的公司历史数据7以一种对于公司有意义的方式来集成所有必要的数据8创建必要的总结表9创建必要的索引10能够加载数据仓库数据库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘概念与技术 数据 挖掘 概念 技术 期末考试 名词解释 整理
