MATLAB代做FPGA代做网络Kmeans算法.docx
《MATLAB代做FPGA代做网络Kmeans算法.docx》由会员分享,可在线阅读,更多相关《MATLAB代做FPGA代做网络Kmeans算法.docx(5页珍藏版)》请在第一文库网上搜索。
1、数据挖掘与聚类分析2.1 聚类分析概述数据挖掘技术出现的时间不长,相应聚类方面的研究时间也不长,但是其发展非常迅速,在工程中的应用,特别是在搜索引擎中的应用非常广泛,聚类的理论和技术迅速增加。各种经典聚类算法相应出现,在聚类过程中,每种聚类算法表现出一定的缺点和局限性,针对这些问题,人们不断的对聚类算法的再改进,同时提出相应的理论作为改进的基础。比如提出孤立点的问题,计算样本间距离的不同计算方法,聚类结果质量的评定等。K-means算法作为一种基于划分的经典算法,开始只是提出了一种聚类过程的思想,当然存在很多缺点和局限性。从提出到现在的整个发展过程中,人们针对它存在的问题,在原k-means算
2、法的基础上提出了大量的改进算法。所有的改进算法,大部分都是把其他的聚类方法,比如,基于层次方法、基于密度方法等,应用到K-means的算法步骤当中,而改进之后,也只是解决某一方面的问题。现在随着网络用户的快速增加,数据信息的膨胀速度更是惊人,那么在聚类过程中对大数据量的聚类效果和时间也成为聚类研究非常关心的问题,人们也提出了一些解决办法,但是真正解决还需时间。针对K-means算法,改进之后会出现用户输入参数增加,聚类数据形状要求严格等问题现在一直没有得到很好的解决。而最关键的用户输入参数直接影响聚类的效果,如何解决这一问题,还需要进一步研究。聚类分析是数据挖掘的一个重要领域,而聚类算法是研究
3、的核心。聚类是将没有类别标记的对象,根据其特征,将其划分为不同的数据类。目的是使得属于同一类别的个体之间的距离尽可能的小(很高的相似度),而不同类别上的个体间的距离尽可能的大(相似度尽可能的小)。聚类方法包括统计、机器学习方法、神经网络方法和面向数据库的方法。2.2 聚类分析中的数据类型聚类算法中,经常要处理数据对象,这些数据对象可能表示人、房子、文档、国家等。许多基于内存的聚类算法都选择如下两种有代表性的数据结构:数据矩阵是一个对象-属性结构。它是由n个对象组成,设聚类问题中有n个对象组成:七(i=1,2,每个对象有P个属性,第i个对象第j个属性的观测值为勺。数据矩阵采用关系表形式或n*p矩
4、阵来表示。1,123,idx2P22j,*x2xnd_上式常称为数据矩阵,其中第i个对象P个变量的观测值记为:%=(Xj,Xj2,x加)C(2.2)相异度矩阵是一个对象对象结构。它存放所有n个对象彼此之间所形成的相似性。它一般采用n*n矩阵来表示。-O43,1),43,2),。(2.3)_4小1尸4小2),dgi),。一其中,40)表示对象i和对象j之间的相异性的量化表示,通常为一个非负数。当对象i和对象j非常相似或彼此“接近”时,该数值接近S该数值越大,就表示对象i和对象j越不相似。显然,d(ij)=d(Ji)Rd(ii)=o.数据矩阵经常被称为双模式矩阵,而相似性矩阵被称为单模矩阵。因为前
5、者行和列分别表示不同的实体,而后者行和列则表示同一实体。许多聚类算法都是基于差异度矩阵进行聚类分析的。如果数据是用数据矩阵的形式表现的,在使用该类算法之前要将其转化为相异度矩阵。在聚类分析中,经常涉及到的属性有间隔数值属性、二值属性、符号属性、顺序属性和比例(属性、或属性等,将这些属性组合进行描述的数据对象之间的差异值。利用数据对象差异值就可以对对象进行聚类分析了。2.3 主要聚类算法分类目前主要聚类算法可以大致分为以下几种类型:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、以及基于模型的方法。下面对这些主要的聚类算法进行简单介绍,并进行分析和比较。2.3.1 划分方法基于划
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MATLAB FPGA 网络 Kmeans 算法