一种属性丢失值分块填补方法.docx
《一种属性丢失值分块填补方法.docx》由会员分享,可在线阅读,更多相关《一种属性丢失值分块填补方法.docx(8页珍藏版)》请在第一文库网上搜索。
1、一种属性丢失值分块填补方法摘要:丢失值填补在数据挖掘领域是非常重要的。针对数据集中出现属性丢失值的情况,本论述提出了一种属性丢失值分块填补(ABNS)的方法。首先对数据集进行标准化处理,然后将其数据分成相等的n个块,接着验证每一块来获取相对应的最优的K值,最后使用最优的K值进行数据填补来得到相应的数据。实验采用公开数据集HorseColic、Vote和Diabe?tes进行实验,并且在使用M叶斯、KNN和SM0算法进行分类评估的情况下,对所提出的方法与传统均值填补方法和概率填补方法进行对比。实验结果分析表明,所提方法的填补效果较对比的方法具有一定优势。关键词:分类;KNN;属性丢失值中图分类号
2、:TP391文献标志码:A0引言随着信息技术的迅速发展,相应的伴随着大量数据的产生。由于各种原因,数据处理有时会出现属性丢失值的结果,属性丢失值能影响分类器的性能,影响数据分析的情况。因此,提高数据质量很有必要。例如:水污染数据和风力发电数据都会存在属性丢失值的现象,尤其在医学数据研究中,对属性丢失值的处理显得更加重要。在处理数据集的过程中,发现属性丢失值的情况比较常见,数据集的各个属性都可能会出现丢失值的情况。在数据集中,当有些数据字段为空,或者是出现“? ”号以及出现“N/A”和uNotAvailable等值的时候,就表明这是一个不正常的属性值。还有一些情况,有时会因为某一些属性值的丢失,
3、将直接导致整个数据集不可用。属性丢失值处理是数据挖掘领域重要的研究方向之一。近年来,几个处理方法已经被提出用于属性丢失值填补,因此就如何对属性丢失值进行处理也是非常重要的。同时,该问题在诸多领域中受到广泛的关注,许多研究人员对丢失值进行相关的理论研究,提出解决方法并且进行了相关的实验。随后,在所有提出的解决方法中,发现采用填补方法对属性丢失值进行处理的方法具有更大的优势。该方法从如何利用现有的数据进行填补属性丢失值,使得数据更加完整,依照丢失的重要性和类型进行区域填补,在数据合理性上有一定的优势。K最近邻(KNN, K-NearestNeighbor)算法一直是机器学习领域研究的焦点。但是K值
4、有着不同的选择,K值选择也比较重要,因为K值的不同会使得同样的数据有着不同的结果。尤其是对于稀疏数据来说,由于数据的相异性,当使用KNN算法做数据分析时,不同的K值可能会出现信息检测时丢失信息的情况。本论述在使用KNN算法基础上,提出了一种ABNS填补方法,并将它与均值填补和概率填补方法在HorseColicote和Diabetes数据集上进行了比较。1相关工作属性丢失值近年来一直被人们关注,为了解决属性丢失值问题,研究者也提出了许多处理丢失值的方法,加深了丢失值处理的进一步研究。文献1回顾了由于分析仪器产生的数据受各种因素影响,需要预处理数据,同时分析了化学计量学的预处理融合的集成方法,表明
5、预处理集成允许几种技术选择和它们的组合,以一种互补的方式,进而来改进模型。文献2使用没有缺失值的训练数据对自编码器进行训练,使其更好地预测缺失值的能力,利用自动编码神经网络去重建自己,并做了进一步估计,将丢失值最小化。数据不平衡问题一直是研究的焦点之一。文献3通过研究信用风险评估,针对不平衡数据学习问题提出了一种新型的组合动态集合选择(DES,dynamicensembleselection)模型,并且采用DES-KNN的两步选择策略来对于分类的能力和多样性进行权衡。高维数据经常造成严重的计算复杂度,对它进行分析和学习一直是一个挑战。文献4提出了一种新的监督差异性降维方法,通过优化新设计的有效
6、目标函数来学习每个类别的变化。与单一变化的情况相比,所提方法可以从每个单一类别的数据中捕捉到更多的有用信息。医学数据集在医学领域是非常重要的,文献5讨论了一个新的丢失值填补框架,采用基于类的聚类方法来填补丢失值,本质上,这可以降低医疗数据的维度。由于丢失值会对分类精度产生影响,文献6利用贝叶斯附加回归树提出了 一种自动删除不相关变量的方法。所提模型方法可以对不完整数据集进行分类的精度提高,同时避免了一些不必要的步骤。特征选择是机器学习中的一个非常重要过程,文献7引入一种相容类的概念,以减少原始数据中不必要的相容类。同时为了更有效地处理高维数据集,在每个循环后确定冗余的特征,并将其从候选特征子集
7、中删除,设计一个有效的启发式算法以找到比较小的约简集。文献8验证特征选择对医学数据集丢失值填充的影响,实验结果表明,对于许多医疗数据集来说,为了产生最好的结果,应该谨慎选择特征选择算法。遗传算法和信息增益模型适用于低维数据集,而决策树模型则是高维数据集的更好选择。文献9介绍了数据挖掘中处理缺失属性值的方法,方法主要分为顺序法和平行法两种,并且重点强调了规则归纳原则。另外,在医疗数据方面,因为医疗数据经常有丢失值,使用丢失值填补方式进行提高研究结果也是比较有效的。Huang等提出了医疗数据安全区域填补方法,填补结果有所提高。因此,利用属性丢失值填补的方法会取得比较好的结果,它们是非常必要的填补方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 属性 丢失 分块 填补 方法
