数据挖掘概念与技术.docx

资源ID：16767 资源大小：437.86KB 全文页数：45页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数据挖掘概念与技术.docx

数据挖掘一一概念概念与技术DataMiningConceptsandTechniques习题解答JiaweiHanMichelineKamber著范明孟晓峰译第1章引、.1.1 什么是数据挖掘？在你的回答中，针对以下问题:1.2 1.6定义下列数据挖掘功能：特征化、区分、关联和相关分析、猜测聚类和演化分析。使用你熟识的现实生活的数据库，给出每种数据挖掘功能的例子。解答：特征化是一个目标类数据的一般特性或特性的汇总。例如，同学的特征可被提出，形成全部高校的计算机科学专业一班级同学的轮廓，这些特征包括作为一种高的班级平均成果(GPA：Gradepointaversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA的同学的一般特性可被用来与具有低GPA的一般特性比较。最终的描述可能是同学的一个一般可比较的轮廓，就像具有高GPA的同学的75%是四班级计算机科学专业的同学，而具有低GPA的同学的65%不是。关联是指发觉关联规章，这些规章表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发觉的关联规则为：major(X,computingscience,)owns(X9""personalcomputer")confidsupport=12%,ence=98%替需同,是日盛表示同学的变量。这个规章指出正在学（支持度）主修计算机科学并且拥有一台个人计算机。这个组一个同学拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与猜测不同，由于前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去猜测缺失的或无效的、并且通常是数字的数据值。它们的相像性是他们都是猜测的工具：分类被用作猜测目标数据的类的标签，而猜测典型的应用是猜测缺失的数字型数据的值。因聚类分析的数据对象不考虑已知的类标号。对象依据最大花蕾内部的相似性、最小化类之间的相像性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的大事组织在一起。s数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或猜测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相像性的数据分析1.3 1.9列举并描述说明数据挖掘任务的五种原语。解答：用于指定数据挖掘任务的五种原语是：任务相关数据：这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或数据仓库，其中包括包含关系数据、选择关系数据的条件、用于探究的关系数据的属性或维、关于修复的数据排序和分组。因挖掘的数据类型：这种原语指明白所要执行的特定数据挖掘功能，如特征化、区分、关联、分类、聚类、或演化分析。同样，用户的要求可能更特别，并可能供应所发觉的模式必需匹配的模版。这些模版或超模式（也被称为超规章）能被用来指导发觉过程。因背景学问：这种原语允许用户指定已有的关于挖掘领域的学问。这样的学问能被用来指导学问发觉过程，并且评估发觉的模式。关于数据中关系的概念分层和用户信念是背景学问的形式。模式爱好度度量：这种原语允许用户指定功能，用于从学问中分割不感爱好的模式，并且被用来指导挖掘过程，也可评估发觉的模式。这样就允许用户限制在挖掘过程返回的不感爱好的模式的数量，由于一种数据挖掘系统可能产生大量的模式。爱好度测量能被指定为简易性、确定性、适用性、和新奇性的特征。发觉模式的可视化：这种原语述及发觉的模式应被显示出来。为了使数据挖掘能有效地将学问传给用户，数据挖掘系统应能将发觉的各种形式的模式展现出来，正如规章、表格、饼或条形图、决策树、立方体或其它视觉的表示。1.4 1.13描述以下数据挖掘系统与数据库或数据仓库集成方法的差别：不耦合、松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行，为什么？解答：数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。不耦合：数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集，由于没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。因此，这种构架是一种糟糕的设计。松散耦合：数据挖掘系统不与数据库或数据仓库集成，除了使用被挖掘的初始数据集的源数据和存储挖掘结果。这样，这种构架能得到数据库和数据仓库供应的敏捷、高效、和特征的优点。但是，在大量的数据集中，由松散耦合得到高可测性和良好的性能是特别困难的，由于很多这种系统是基于内存的。半紧密耦合：一些数据挖掘原语，如聚合、分类、或统计功能的估计算，可在数据库或数据仓库系统有效的执行，以便数据挖掘系统在挖掘-查询过程的应用。此外，一些常常用到的中间挖掘结果能被估计算并存储到数据库或数据仓库系统中，从而增加了数据挖掘系统的性能。因紧密耦合：数据库或数据仓库系统被完全整合成数据挖掘系统的一部份，并且因此供应了优化的数据查询处理。这样的话，数据挖掘子系统被视为一个信息系统的功能组件。这是一中高度期望的结构，由于它有利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。从以上供应的体系结构的描述看，紧密耦合是最优的，没有值得顾虑的技术和执行问题。但紧密耦合系统所需的大量技术基础结构仍旧在进展变化，其实现并非易事。因此，目前最流行的体系结构仍是半紧密耦合，由于它是松散耦合和紧密耦合的折中。1.5 1.14描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。第2章数据预处理2.12.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年频1205145153020150507080-1104计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N2=1597200+450+300=950<l597<2450=950+1500；.2050对应中位数区间。我们有：£1=20,N=3197,篁/req）l=953freqmedim=1500,width=30,使用公式（2.3）：PV/2和31972950median=-30=32.97+freq小位1500medianmedian=32.97岁。2.22.4假定用于分析的数据包含属性ageo数据元组的age值（以递增序）是：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,（a）该数据的均值是什么？中位数是什么？（b）该数据的众数是什么？争论数据的峰（即双峰、三峰等）。（C）数据的中列数是什么？（d）你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？(e)给出数据的五数概括。画出数据的盒图。(g)分位数一分位数图与分位数图的不同之处是什么？解答：(a)该数据的均值是什么？中位数是什么？均值是！M=80927=29.96E30(公式2.1)。中位数i”应是第14，=1个，即xl4=25=02。(b)该数据的众数是什么？争论数据的峰(即双峰、三峰等)。这个数集的众数有两个：25和35,发生在同样最高的频率处，因此是双峰众数。(c)数据的中列数是什么？数据的中列数是最大术和最小是的均值。即：midrange=(10+13)/2=41.5。(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(03)吗?数据集的第一个四分位数应发生在25%处，即在(N+1)4=7处。所以：。1=20。而第三个四分位数应发生在75%处，即在3×(N+1)4=21处。所以：03=35(e)给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布外形良好的汇总，并且这些数据是：13、画出数据的盒图。略。（g）分位数一分位数图与分位数图的不同之处是什么？分位数图是一种用来展现数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样，他可以展现全部数的分位数信息，而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。但分位数一分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域，且点依据两种分布分位数值展现。一条线(y=)可画到图中，以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比轴的相应的等同分位数对应的值的分布高。反之，对落在该线以下的点则低。2.32.7使用习题2.4给出的age数据回答下列问题：(a)使用分箱均值光滑对以上数据进行光滑，箱的深度为3o解释你的步骤。评述对于给定的数据，该技术的效果。(b)如何确定数据中的离群点？(c)对于数据光滑，还有哪些其他方法？解答：(a)使用分箱均值光滑对以上数据进行光滑，箱的深度为3o解释你的步骤。评述对于给定的数据，该技术的效果。用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤：步骤1：对数据排序。(由于数据已被排序，所以此时不需要该步骤。)步骤2：将数据划分到大小为3的等频箱中。箱1：13,15,16箱2：16,19,20箱3：20,21,22箱4：22,25,25箱5：25,25,30箱6：33,33,35箱7：35,35,35箱8：36,40,45箱9：46,52,70步骤3：计算每个等频箱的算数均值。回步骤4：用各箱计算出的算数均值替换每箱中的每个值。箱1：44/3,44/3,44/3箱2：55/3,55/3,55/3箱3：21,21,21箱4：24,24,24箱5：80/3,80/3,80/3箱6：101/3,101/3,101/3箱7：35,35,35箱8：121/3,121/3,121/3箱9：56,56,56(b)如何确定数据中的离群点？聚类的方法可用来将相像的点分成组或“簇"并检测离群点。落到簇的集外的值可以被视为离群点。作为选择，一种人机结合的检测可被采纳，而计算机用一种事先打算的数据分布来区分可能的离群点。这些可能的离群点集。能被用人工轻松的检验,而不必检查整个数据(C)对于数据光滑，还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑方法，如中位数光滑和箱边界光滑。作为选择，等宽箱可被用来执行任何分箱方式，其中每个箱中的数据范围均是常量。除了分箱方法外，可以使用回归技术拟合成函数来光滑数据，如通过线性或多线性回归。分类技术也能被用来对概念分层，这是通过将低级概念上卷到高级概念来光滑数

注意事项

本文（数据挖掘概念与技术.docx）为本站会员（lao****ou）主动上传，第一文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知第一文库网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。