数据挖掘之红酒鉴别.docx
《数据挖掘之红酒鉴别.docx》由会员分享,可在线阅读,更多相关《数据挖掘之红酒鉴别.docx(11页珍藏版)》请在第一文库网上搜索。
1、基于数据挖掘的葡萄酒质量识别我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来推断其质量的好坏,这就必需要求品尝者是训练有素的品酒专家。但感官品尝结果简洁受各种因素的影响。随着科学技术的进展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被各国所采纳。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简洁的分析与推断。1 .数据挖掘理论方法论述1.1 主成分回归在数据处理中,常常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,争论多变量问题是常常遇到的,再
2、加上变量指标之间有肯定的相关性,这势必增加了问题的简单性,主成分分析就是设法将原来指标重新组合成一组新的相互无关的较少的综合指标来代替原来的指标,同时依据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这种将多个变量化为少数相互无关的综合指标的统计方法称为主成分分析。主成分分析就是设法将原来众多具有肯定相关性的变量重新组合成一组新的相互无关的综合指标来代替,通常数学上的处理就是将原来P个变量作线性组合,作为新的综合指标,但是这种线性组合,需要加以限制。假设第一个综合指标记为耳,自然盼望片尽可能多的反映原来指标的信息,这里最经典的方法是用大的方差来表达,即W(耳)越大,表示片包含
3、的信息越。因此全部线性组合中所选取的片应当是方差最大的,故将写称为第一主成分,假如片不足以代表原来P个指标的信息,在满意C(RB) = O的条件下,再考虑选取工作为其次个主成分,同理可以构造第三,四,第个主成分。耳=cliXi + a2iX2 + 4pjXp要求:(1) 4 + aj + + cipj = 1;(2)与与弓(,。力不相关求得X的主成分为协房阵的特征向量为系数的线性组合。得到主成分,提取所需要的前几个主要成分后,回归的过程与线性回归是全都的。只是自变量变成了选取的主成分,因变量不变。1.2分类回归树1.2 . 1分类回归树的构建分类回归树的构建是通过学习给定的训练样本,查找最佳的
4、分支规章。分类回归树的分支规章是依据不纯度作为评估度量来实现的,以查找最佳的分支规章。最常用的不纯度函数为基尼指数,其定义为I(t) = P(ij)PUt)iJ其中P(中)是指,中第,类的频率,也就是说当基尼指数越小时,意味着该节点所包含的样本集越集中,该节点越纯。树的构建大致可以这样表述为:全部的样本都属于树的根节点查找第一个节点的分支规章时,从第一个自变量开头,纪录样本数据该变量的每个取值作为分支阈值时不纯度的下降值,直到全部变量的每个取值作为分支阈值的不纯度下降值纪录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分支变量和分支阈值。如此往复生成一颗最大的树。由此过程可见,分类
5、回归树属于贪心算法。在构建树的过程中,满意以下条件之一,则不再对叶节点进行分支操作:(1)叶节点中的样本数小于给定的值Nm2 一般默认Nmm=5;(2)分支后的叶节点中的样本属于同一类;(3)无属性向量用于分支选择。经过此过程,最终得到一颗最大的树12.2分类回归树的修剪为了解决所建立的最大树。ax过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有关心的部分树,使得模型更简洁、更简洁理解。常用的剪枝有两种:一种是先剪枝法,一种是后剪枝法。它们都采纳统计度量,剪去最不行靠的分支,提高分类回归树独立于测试数据的测试力量。最小成本简单度的后剪枝法较为常用,其统计度量为(T)
6、 = R(T) + a,其中a表示简单度参数,用于表示每个终止点简单度的代价,当为0时,对应的最大树Oax R(T)为7i的估量错分率,此(7)为该树的估量错分类与对简单度惩处值之和的成本复合值。当口肯定时,&(7)越大,其可取性也就越小。1.2.3分类回归树的评估经过树的修剪,得到了一系列的子树,那么假如选择最优大小的树作为最终构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本评估和交互检验评估。文中采纳的是交互检验评估。K折交互检验是将样本集平均分为K个子集,每次用其中的(K-1)个子集进行建模,剩下的子集用来猜测,循环K次,计算平均的错分率。对所生成的一系列子树7,5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 红酒 鉴别
