《第十二章matlab因子分析.docx》由会员分享,可在线阅读,更多相关《第十二章matlab因子分析.docx(15页珍藏版)》请在第一文库网上搜索。
1、第十二章因子分析(贵州大学松虎统计)1,引出因子分析的定义:作个比喻,对面来了一群女生,我们一眼就能够分辨出孰美孰丑,这是判别分析;并且我们的脑海中会迅速的将这群女生分为两类;美的一类,丑的一类,这是聚类分析。我们之所以认为某个女孩漂亮,是因为她具有漂亮女孩所具有的一些共同点,比如漂亮的脸蛋,高挑的身材,白皙的皮肤,等等。其实这种从研究对象中寻找公共因子的办法就是因子分析(FactorAna1ysis)。因子分析也是利用降维的思想,把每一个原始变量分解成两部分,一部分是少数几个公共因子的线性组合,另一部分是该变量所独有的特殊因子,其中公共因子和特殊因子都是不可观测的隐变量,我们需要对公共因子作
2、出具有实际意义的合理解释。因子分析的思想源于1904年查尔斯,斯皮曼(CharIeSspearman)对学生考试成绩的研究,目前因子分析已经在很多领域得到广泛应用。本章主要内容包括,因子分析的理论简介,因子分析的mat1ab实现,因子分析具体案例。12.1因子分析简介12.11基本因子分析模型设P维总体X,XP)的均值为一(41,Mz)协方差矩阵为=(%)PXj相关系数矩阵为r=Sij)PXP因子分析的一般模型为%=4+6/+2力+axJtn+J%2=2+%1工+。22于2+4勺=p+3+qP2人+/+P(12.1)其中,儿力,为m个公共因子,是变量为=12P)所独有的特殊因子他们都aii(i
3、=1,2,p;j=1,2,.,m)ifi是不可观测的隐变量。称,j为变量在公共公共因子J上的截荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。可以看出模型(12.1)与多重线性回归模型有些相似,但它与多重线性回归模型有着本质的区别,因为公共因子和特殊因子都是不可观测的隐变量。式(12.1)还可以写成矩阵形式x=AfS)其中,”=小称为因子载荷矩阵,,一(力/,/)为公共因子向量,为特殊因子向量。通常对模型(12.1)和(12.2)作如下假定:E(=01var(=I:公共因子不相关,且具有单位方差,即)冈,v),w,w特殊因子彼此不相关,即E=网,Var=D=diag(6,b
4、,bCoV(f)=0A公共因子和特殊因子彼此不相关,即J)叼。12.1.2因子模型的基本性质1,2的分解,对式(12.2)两边求协方差矩阵,并注意到模型的假定,可得=Var(X)=var(A/*)+var(g)=Avar()A,+var(g)=AA+0若X的各分量已经标准化,则2,模型不受单位影响对X做换变换X*=Cr其中C=diagC,C2,Cp)(q0,i=1,2,p)r*=zy*I*f1*则模型(12.2)可以变形为:7这仍是一个因子模型,其中=C,A*=CAt=C3因子载荷阵不唯一A小人P霜y肚加士X=4+(AT)(Tf)+E设T为一个正交矩阵,则有:尸八J令A*=AT,*=7/则/*
5、是由因子/经正交旋转后得到的新因子,A*是相应的因子载荷阵。当公共因子不好解释时,就可以通过因子旋转得到新的因子和载荷阵,使得新的因子和载荷阵,使得新因子具有更好的实际意义,便于解释。4,因子载荷矩阵是原始变量和公共因子的协方差矩阵根据模型假设及协方差的性质可得若X的各分量已经标准化,则:5共性方差与特殊方差求式(12.工)中变量为=12,,)的方差可得:=Gvar(4)+var(与)=若+b;,i=1,2,pjTjT(12.3)=G(i=1,2j,p)用2令7=1,则i反映了公共因子对变量i的影响,可看成公共因XEr子对变量的方差贡献,称为共性方差。特殊因子的方差b,则反映了特殊因子对变量X
6、i的方差贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。若X的各分量已经标准化,则2+b,2=1i=12,p6公共因子重要性的度量将式(12.3)关于求和可得:g;=SW(/=1,2,、a)2n令/=1,则&,反映了第/个公共因子对1个原始变量总方差的贡献,他是衡量公共因子重要性的一个度量,gj值越大,说明第j个公共因子力越重要,g:/Var(X,)=g:/cth.称/i=/a为第J个公共因子的贡献率,若X的各分量已经标准化,则力的贡献率为雪/。12.1.3因子载荷阵和特殊方差的估计求解因子模型的关键是估计因子载荷阵A和特殊方差阵D,常用的估计方法有主成分法,主因子法
7、和最大似然法。1,主成分法设“电,一,*为取自总体X的样本,记样本协方差矩阵和样本相关系数矩阵分别为Za-九)(E-%),=(%)px/=1-1其中为样本均值。将S作为的估计H作为R的估计。从S出发求解主成分,设4以沁江为S的P个特征值Z1I-2,,为相应的正交单位特征向量。根据矩阵的谱分解,S可作如下分解AAAAAAAAAAAs=1t1t+2t2r2+Aw+2PIPrPZ12c-x当前,九个主成分的JK积贡献率达到一个比较高的水平(例如85%以上)时,可由式(12.5)的前用项给出载荷A的估计,由后P小项给出特殊方差矩阵。的估计,即=AA+。(12.6)由于。是对角阵,所以式(12.6)的第
8、一行只能是约等式,为了保证S和AA的对A2W26=Sij-Zaij(i=1,2,p)角线元素相等,可得六】AA上面基于主成分分析求出的A和O是因子模型的一个解,称为主成分解。A的第/列元素A平方和等于7,它反映了第j个公共因子对P个原始变量总方差的贡献。若需考虑更多(多于加个)公共因子,则只需考虑新的公共因子的载荷的估计,前面m个公共因子的载荷阵不变。若原始变量的单位和数量级别差距很大时,可以从样本相关系数矩阵A出发进行求解,此i=I-X劭(i=1,2,p)时jAAA记E=S(AA+D)=(%)pp,称E为残差矩阵,E的对角元素全为0,其余元素满足Prn22A2w,+/1+2汁+4PZ=I=1
9、上式的证明略。它说明了当后Pm个特征值平方和较小,即前m个公共因子对P个原始变量总方差的贡献比较大时,因子模型的拟合效果是比较好的。2.主因子法为方便起见,假定原始变量均已作标准变换。则X的相关系数矩阵满足称R为约相关系数矩阵(reducedcorre1ationmatrix)R的对角元素为K=1=1,2,),并且R*也是一个非负定矩阵。若先给出特殊方差矩阵D的一A.222个初始估计O=g(6,6,6),则可得到约相关矩阵的一个估计下面利用主成分法,设K的前mr,相应的正交单位特征向量为wO令am(八:z.J*八八/=I-(Af)2=I-Vd.,i=12,pD=(1,2,.,p)J*A称A*和
10、E*为因子模型的主因子解。可以采用迭代算法,把此时的再作为特殊方差的矩阵Q的初始估计,重复上述步骤,直到解稳定为止。这种解法的关键在于特殊方差矩阵D的初始估计常用的估计方法有如下3种:AD=diag(-AA)一其中为了保证方程组(12.7)解的唯一性,附加约束AZA为对角矩阵。JoreSkog和1aWIey等人(1967)提出了一种较为实用的迭代法,使最大似然估计逐步被人们所接受。其基本思想是,先取一个初始矩阵DyEd”?,ez12,p求o0的特征值I2J及相应的特征向量12,然重复上述步骤得到A,如此重复下去,直到满足后计算,再由方程组(工2.7)的第2式计算方程组(12.7)的第1式为止。
11、12.1.4 因子旋转因子分析的主要目的是对公共因子给出符合实际意义的合理的解释,解释的主要依据就是因子载荷阵的各列元素的取值。当因子载荷阵某一列上各元索的绝对值差距比较大,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就变得比较困难。此时可以考虑对因子和因子载荷阵进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元索的绝对值尽可能两极分化,这样就使得因子的解释变得容易。这就好比一个女孩,正面看上去可能不觉得漂亮,可女孩不经意的一个转身,或许让我们看到她楚楚动人的某个侧面。用为一正交矩阵,令因子旋转的方法有正交旋转和斜正交旋转两种,这里只介绍一种普遍使用的正交旋转法
12、,最大方差因子旋转法(VarimaX)。它是由KaiSer于1958年提出的,这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其它元素尽量接近于Oo,m(12.9)V.则称J为旋转后因子载荷阵5的第1列元素的相对方差,它度量了B的第J列各元素的平方值之间的差异程度。所谓的最大方差旋转法就是选择正交阵,使得f+%+.+%达到最大。皿中之所以除以共性方差发是为了消除公共因子对各原始变量的方差贡献不h;=%i=12,,p7=1J=I同的影响。并由的正交性可知BB=ATAi=AA1也就是说正交变换不改变共性方差。12
13、.1.5 因子得分在对公共因子作出合理的解释之后,有时还需要求出各观测所对应的各个公共因子的得分,比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋,身材等各打多少分。常用的求因子得分的方法有加权最小二乘法和回归法,下面分别介绍。1加权最小二乘法将因子模型(12.1)改写为a2f2+amfn+*1工2-2=21(+022力+2加力+*2IP-p=4+%26+4p/+p(12.10)把(12.10)看成一个回归模型,其中J2,J,是待估计参数,12为随机误差,注意到*2,,易方差,故采用加权最小二乘估计法,构造目标函数写成矩阵形式AAQ(7)=(x-A。-4-)上向AA其中=(p/2,,/)。由Q()达到最小,求得因子得分的估计为:A小(AmDUm,、A称/为巴特莱特(BartIIett,1973)因子得分。在实际应用中,工,A和D分别作为,A和。的估计,将每个样品的观测数据,带入式(12.12)可得相应的因子得分为2.回归法y二1一4=(万一从,%一2,七一二(,)假设/=(,