表格模板-应用统计学08第8章用少数变量代表多个变量 精品.ppt
《表格模板-应用统计学08第8章用少数变量代表多个变量 精品.ppt》由会员分享,可在线阅读,更多相关《表格模板-应用统计学08第8章用少数变量代表多个变量 精品.ppt(48页珍藏版)》请在第一文库网上搜索。
1、* * *应用应用统计统计应应 用用 统统 计计 学学 Applied StatisticsApplied Statistics* * *l如果你要到裁缝店定做一件上衣,需要测量很多尺寸,譬如身长、袖长、胸围、腰围、肩宽、肩厚等。但服装厂要生产一批新型服装,却不可能完全按照每个人的这些尺寸来对型号进行划分,而是把各个方面进行高度概括,用少数几个指标作为分类的型号,简单明了的反映不同人群的体态特征。l日常生活中经常遇到包含很多变量的数据,比如各个地区的若干经济指标数据,上市公司财务报表公布的多项财务数据等等。l这些数据中的变量虽然很多,但往往相互之间都有着一定的关联,这使得只要找出少数几个“代表
2、”就可以对复杂的信息进行比较完整的描述了。主成分分析和因子分析便是实现这一过程的两种方法。* * *第第 8 章章 用少数变量代表多个变量用少数变量代表多个变量8.1 主成分分析主成分分析 8.2 因子分析因子分析* * *n在研究实际问题时,往往需要收集多个变量。但这在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。而引
3、起较大的误差。n为能够充分利用数据,通常希望用较少的新变量代为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。反映原变量的信息。n主成分分析和因子分子正是解决这类问题的有效方主成分分析和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。问题更加简单直观。主成分分析和因子分析主成分分析和因子分析* * *8.1 主成分分析主成分分析 8.1.1 主成分分析的基本思想是什么?主成分分析的基本思想是什么? 8.1.
4、2 如何选择主成分?如何选择主成分? 8.1.3 怎样解释主成分?怎样解释主成分?第第 8 章章 用少数变量代表多个变量用少数变量代表多个变量* * *8.1.1 主成分分析的基本思想是什么?主成分分析的基本思想是什么?* * *n主成分的概念由Karl Pearson在1901年提出n考察多个变量间相关性的一种多元统计方法n研究如何通过少数几个主成分来解释多个变量间的内部结构。即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。n主成分分析的目的:数据的压缩;数据的解释l它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。* *
5、 *【例例8.1】表8-1是北京市某高中是北京市某高中50名学生的六门课程测试成绩数据名学生的六门课程测试成绩数据 n 乍一看,很难从这六门课程的测试得分来评价这50名学生的成绩优劣,也很难分析这些学生的成绩分布特征。要解决这样的问题,自然希望能把这一数据中包含的六个变量概括成一两个综合变量。那么这一做法是否可行呢?提炼出来的少数变量能够代表原数据的多少信息?如何解释它们呢?我们首先来了解一下主成分分析的基本思想。n 对于例8.1中的数据,每一个学生的观测值都包含了六个变量,所以表示在坐标系中每一个观测值就是六维空间中的一个点,每一维就代表一个变量。把六个变量概括成一两个综合变量,实质上就是一
6、个降维的过程。* * *n对于存在线性相关的两个变量,直接进行分析可能由于多重共线性而无法得出正确结论。n如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理?n分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的。以两个变量为例以两个变量为例n显然,短轴方向上,数据点之间的差异较小;长轴方向上,数据变化则较大。如果原坐标系中的横轴和纵轴能够分别与椭圆的长短轴平行,那么相对来说,长轴所代表的变量就描述了数据的主要变化,短轴所代表的变量则描述了数据的次要变化
7、。* * *n现在沿椭圆的长轴设定一个新的坐标系,则新产生的两个变量和原始变量之间存在明显的数学换算关系。n但这两个变量彼此不相关,且信息量的分布显然不同。长轴变量携带了大部分数据变异的信息,而短轴变量只携带了一小部分变异信息。椭圆的长轴和短轴相差越大时,说明长轴方向所代表的变量包含原始信息越多,那么用这个新变量来代替原始的两个变量(即忽略包含少数信息的短轴变量)也就越合理,从而二维数据就可以降低为一维数据。n但现实数据往往并不满足这样的条件,这就需要把原始数据构成的坐标系进行旋转,产生一个新的坐标系,使得新坐标系的横轴和纵轴与椭圆的长短轴平行,实质上也就是把原数据中的两个变量变换成两个新的变
8、量。* * *n主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最长的几个轴作为新变量,主成分分析就基本完成了。n作为椭圆(或椭球)的主轴,它们之间是相互垂直的,在代数上,这些新变量是原始变量的线性组合,叫作主成分主成分(principal component)。n原始数据中有几个变量,它们构成的椭球就有几个主轴,也就意味着最终可以找到几个主成分。主成分分析的基本思想是什么?主成分分析的基本思想是什么?* * *n降维的目的,是选择越少的主成分来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 表格模板-应用统计学08第8章用少数变量代表多个变量 精品 表格 模板 应用 统计学 08 少数 变量 代表