终于有人把数据挖掘讲明白了.docx
《终于有人把数据挖掘讲明白了.docx》由会员分享,可在线阅读,更多相关《终于有人把数据挖掘讲明白了.docx(11页珍藏版)》请在第一文库网上搜索。
1、终于有人把数据拾掘讲明白了导读:为什么要进行数据挖掘?什么是数据挖掘?数据挖掘的主要内容又有哪些?本文将逐一解答这些问题。通过本文的学习,你将对数据挖掘从为什么到是什么“,再到有什么有一个基本的了解。随着大型数据库的建立和海量数据的不断涌现,人们迫切需要强有力的数据分析工具。但现实情况往往是数据十分丰富,而信息相当贫乏。快速增长的海量数据被收集、存放在大型数据库中,没有强有力的工具,以人类现有的能力很难理解它们。因此,有人说大数据是数据坟墓。当采用数据挖掘工具进行数据分析时,可以发现隐藏在大数据之中重要的数据内容、模式,能对商务决策、知识库、科学和医学研究等做出巨大贡献。为解决数据和信息之间的
2、鸿沟,我们应系统地学习数据挖掘知识,开发数据挖掘工具,将数据坟墓01数据拾掘过程数据挖掘(data mining )又译为资料探勘、数据采矿,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又潜在有用的信息和知识的过程。数据挖掘的具体过程描述如下:1)数据:进行数据挖掘首先要有数据,可以根据任务的目的选择数据集,并筛选自己需要的数据,或者根据实际情况构造自己需要的数据。2)预处理:确定数据集后,就要对数据进行预处理,使数据能够为我们所用。数据预处理可以提高数据质量,包括准确性、完整性和一致性。进行数据预处理的方法有数据清理、数据集成、数据规约和数据变换
3、等。3)变换:进行数据预处理后,对数据进行变换,将数据转换成一个分析模型,这个分析模型是针对数据挖掘算法建立的。建立一个真正适合数据挖掘算法的分析模型是数据挖掘成功的关键。4 )数据挖掘:对经过转换的数据进行挖掘,除了选择合适的挖掘算法外,其余一切工作都能自动地完成。5 )解释/评估:解释并评估结果,最终得到知识。其使用的分析方法一般视数据挖掘操作而定,通常会用到可视化技术。数据挖掘的具体过程如图1所示。解释/评价图1数据挖掘过程02数据挖掘的内容2.1 关联规则挖掘从大规模数据中挖掘对象之间的隐含关系称为关联分析(Associate Analysis )或者关联规则挖掘(Associate
4、Rule Mining ),它可以褐示数据中隐藏的关联模式,帮助人们进行市场运作、决策支持等。考察一些涉及许多物品的事务。事务1中出现了物品甲,事务2中出现了物品乙,事务3中同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品同时出现的规律的知识模式。更确切地说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。一般采用可信度、支持度、期望可信度、作用度四个参数来描述一个关联规则的属性。在关联规则的四个属性中,支持度和可信度能够比较直接地形容关联规则的性质。如果不考虑关联规则的支持度和可信度,那么在事务
5、数据库中可以发现无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。因此,为了发现有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度,前者规定了关联规则必须满足的最小支持度;后者规定了关联规则必须满足的最小可信度。经典故事案例:关联规则挖掘经典的案例即为购物篮中的啤酒和尿布的故事。啤酒与尿布的故事产生于20世纪90年代的美国沃尔玛超市中,在美国有婴儿的家庭中,一般由母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。比如对于如下购物篮数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 终于 有人 数据 挖掘 明白