7个径赛项目上的女子纪录的主成分分析处理.docx
《7个径赛项目上的女子纪录的主成分分析处理.docx》由会员分享,可在线阅读,更多相关《7个径赛项目上的女子纪录的主成分分析处理.docx(12页珍藏版)》请在第一文库网上搜索。
1、7个径赛项目上的女子纪录的主成分分析处理(总11页)-CA1-FENGHA1-(YICAI)-CompanyOne1-CA1-本页仅作为文档封面,使用请直接删除7个径赛项目上的女子纪录的主成分分析处理摘要本文通过主成分分析的相关方法,建立了评价55个国家和地区1984年前在7个径赛项目上的女子纪录的数学模型。针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方法,利用MAT1AB软件求得样本相关矩阵的特征值和相应正交单位化特征向量。针对第三个问题,由第二个的求解结果进行相关的分析,确定两个主成分的具体意义。第一主成分反应了各国家和地区的运动员的优秀程度;第二主成分反映了各国家和地区在
2、短跑和长跑项目上的相对实力。针对第四个问题,由前两个问题的求解结果,然后基于第一样本主成分的得分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法基本吻合。最后本文针对两种不同方式得出结果的差异性进行了分析。关键词主成分分析;相关矩阵;贡献率;第一样本主成分一、问题重述在实际问题的研究中,往往会涉及众多有关的变量。但是变量太多不但会增加计算的复杂性,而且也给合理的分析问题和解释问题带来了困难,一般来说每个变量所提供的信息在一定程度上有所重叠,因而人们希望用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的,主成分分析便是在这种降维的思想下产
3、生的处理高维数据的方法(1)。现请分析下表有关世界上55个国家和地区1984年前在7个径赛项目上的女子纪录数据(见附录),解决如下问题:(1)求其样本相关矩阵R及它的特征值和相应正交单位化特征向量。(2)求前两个标准化样本主成分及其累计贡献率。(3)解释(2)中的两个主成分的意义。(4)基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中得到的直观看法是否基本吻合?二、问题分析分析问题可知,文中所给数据较多,首先要合理使用MAT1AB软件对数据进行处理;要求解文中问题,主要基于主成分分析法的相关方法。由文中数据可知,所给的七个变量有着不同的量纲,这会引起各变量取值的分散程度差异较大。
4、若用协方差矩阵求主成分,则优先照顾了方差大的变量,会造成很不合理的结果,为了消除由于量纲的不同可能带来的影响,故采用变量标准化的方法,即用相关矩阵求解。对于前两个问题,可直接使用MAT1AB中的相关函数进行求解。求解结果可用表格表示。对于第三个问题,需要利用第二个问题求解出的第一主成分和第二主成分的表达式进行具体分析。对于第四个问题,要先求各国家和地区的第一样本主成分的得分,然后再根据得分的高低具体分析。最后针对文中的求解过程与求解结果,讨论模型的不足之处与需要改进的方法。三、模型假设假设题中所给数据均准确有效。四、符号表示符号SRyi自hi含义样本协方差矩阵样本相关矩阵主成分(i=1,2,3
5、7)特征值(,=1237)标准化特征向量(i=1237)第i个主成分的贡献率(i=1,2,37)五、模型建立与求解本文运用主成分分析法对高维数据进行了降维处理,其间通过求解样本的协方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映样本数据的绝大部分信息,假设当主成分的累计贡献率达到80%时,即视为满足了提取原数据中绝大部分信息的要求。模型建立与求解如下:模型建立设n,乂2门了)是元总体,从中取得样本数据:QU,再2,,再Pyx2x22x2p)1(Xm,x”2,,.,,XnP)第i个观测数据记作Xi=Gi1,Xi2,xip)r,(i=1,2,)称为样品,引进样本数据观测矩阵X”121xnX
6、=X12X22Xn2二($”XH)3X2pXnp)它是X矩阵,它的个列即是个样品项,2,,怎,它们组成来自P元总体(x,X2,XJ的样本。观测矩阵X的P个行变量分别是P个变量X,X,Xp在次试验中所取得的值。样本协方差矩阵及相关矩阵分别为1s=()=-x)(xk-x)-11=1R=SQpxp=其中x=(x1,x2,xp)f,Xj=-,y=1,2,pni=11,_Sij=-7Z(加-Xj)(XA-XJ)1j=1,2,,一Ii=I利用S和R求得的样本组成分有下述结论:设S=(SUJ。是样本协方差矩阵,其特征值为4g40,相应的正交单位化向量为自,打,这里自=(Bg2,四),则第i个样本主成分为M=
7、2irx=1x1+ei2x2+eipxp,i=1,2,p其中X=G,修,马,),为的X的任一观测值。当依次代入X的个观测值Xk=(小,/2,,“,),伏=12,)时,便得到第i个样本主成分的n个观测值”,(Z=I,2,此即为第i个主成分的得分。为消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵R0由R出发所求得的样本主成分称为标准化祥本主成分。只要求出R的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为P。实际应用中,将样本w(i=1,2,)代人各主成分中,可得到各样本主成分的观测值yki(k=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 径赛 项目 女子 纪录 成分 分析 处理