《SPSS论文.docx》由会员分享,可在线阅读,更多相关《SPSS论文.docx(7页珍藏版)》请在第一文库网上搜索。
1、SPSS课程论文SPSS软件是一种专业性较强的统计分析软件,本门课程是以统计分析过程为主线来介绍SPSS的。对SPSS的学习应从实际应用出发,己统计分析的实践过程为主线,从SPSS基础和数据管理功能入手,按照不同类型的数据、分析需求由浅至深、分析方法从易到难的的思路展开,进而逐步实现对SPSS功能的全面掌握和应用。下面我以中国某年的各省、直辖市的经济概况数据来讨论SPSS的若干应用。数据截图如下:一、数据排序把数据按GDP,升序排序得下图:GDP总人口数规模以上工业总产值土地面积1507.5300622246.00122800021350.4563148199.0072100031643.46
2、30192439.005200042052.1867138125.0035354119.52558488268.0045400064594.03475420637.0017600075418.82181534190.00166000087220.14597646463.0039400097894.22885914355.0082000108577.127461309835.00187000119088.135711247133.00156270129108.812941675182.0011760139435.044571388306.00166933149502.44603964413.00
3、2370001510021.537331119984.002060001610235.03831953515.004540001711655.024711340611.0011830001812263.459501873200.001394271913777.919611369984.00164112014357.136892190123.001214002115806.157242162312.001859002215902.165681900883.002118002316872.423023011441.0063002416898.680422314738.004850002518278
4、.343753621942.001480002620197.171853114329.001876932722942.794023499553.001670002827226.854435139420.001018002939416.295798385139.941570003040903.378669205648.001026003145472.8104308582464.00179813由此可见通过排序我们可以轻易找到排序变量的最大值和最小值。从上面的数据可以看出我国各个地区的GDP的差距巨大。最小507.5 ,最大45472.8。二、单样本t检验单样本t检验的目的是利用来自总体的样本数据
5、,推断该总体的均值与指定的检验值之间的差异在统计上是否是显著的。单样本t检验的步骤为:1 .提出零假设本例中我们可以假设GDP均值uo=9500,即零假设H。为u=uo02 .选择检验统计量由于本数据只有31个样本,所以用t统计量:得到以下结果:单个样本统计量N均值标准差均值的标准误GDP3113973.55511286.27922027.0756上表反应出样本均值是13973.555。单个样本检验检验值=9500tdtaaSig(双侧)均值差值差分的95%置信区间下限上限GDP2.20730.0354473.5548333.7148613.395可以看到t统计量的值为2.27,自由度为30,
6、 p值为0.035/2=0.0175,所以我们拒绝原假设认为GDP的均值是不等于9500的。3.单因素方差分析单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。1 .单因素方差的零假设是:控制变量不同水平下观测变量各总体的均值无明显差异,控制变量不同水平的效应同时为(),记为H。: =?=4 = 0,意味着控制变量不同水平的变化没有对观测变量产生显著影响。2 .方差分析采用的检验统计量是F统计量3 .计算检验统计量的观测值和概率P值。如果控制变量对观测变量造成了显著影响,观测变量总变差中控制变量影响所占比例
7、相对于随机变量必然较大,F值显著大于1;反之,如果控制变量没有对观测变量造成显著影响,观测变量的变差应归结为随机变量造成的,F值接近lo4 .给出显著性水平,并作出决策。下面我们研究地区对,GDP,的影响:分析结果:ANOVAGDP平方和dfF显著性组间1.026E925.128E85.114.013组内2.808E9281.003E8GDPANOVA平方和df均方F显著性组间1.026E925.128E85.114.013组内2.808E9281.003E8总数3.833E930我们可以看到F的值为5.11,显著性水平为0.()13().()5所以应该拒绝原假设,说明地区对GDP造成了显著性
8、的影响。三.单样本的非参数检验单样本非参数检验是对单个总体的分布进行推断的方法。1 .单样本K-S检验我分析的是GDP总体分布与指数分布是否有显著性差异。在SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布得到的分析结果如下:单样本 Ko 1 mogo rov - Sm i mov 检验GDPN指数参数。ab均值最极端差别绝对值正负Ko 1mogorov-Smi rnov Z渐近显著性(双侧)3113959.2806.178.076-.178.991.280a.检验分布为指数分布。b.根据数据计算得到。K-S统计量的概率P值为0.28(),大于显著水平,所以不能拒绝原假设,认为G
9、DP的分布没有显著性差异。2 .两独立样本的K-S检验两独立样本KS检验的基本思想与前面讨论的单样本K-S检验的基本思路是大体一致的。主要差别在于:这里是以变量的秩作为分析对象,而非变量本身。首先,将两组样本混合并按升序排序。然后,分别计算两组样本的秩的累积频数和累积频率。最后,计算两组累积频率的差,得到秩的差值序列并得到D统计量我分析了中部地区和东部地区的GDP分布是否有显著性差异。得到如下结果:频率地区NGDP 东部13中部12总数25检验统计量GDP最极端差别绝对值正负Kolmogorov-Smi rnov Z渐近显著性(双侧).308.077-.308.769.596a.分组变量:地区
10、可以看到东部地区的省有13个,中部地区的省有12个。K-S统计量的概率p值为().596,大于0.05的显著性水平,所以我们接受原假设,认为两个样本是无显著性差异的。下面我又进行了东部地区和西北地区的GDP分布的K-S检验得到如下结果:频率地区NGDP 东部西北总数13619检验统计量GDP最极端差别绝对值正负Ko 1mogorov-Smi rnov Z渐近显著性(双侧).756.000-.乃61.533.018a.分组变量:地区可以看到西北地区有6个省,KS统计量的概率p值为0.018,小于0.05的显著性水平,认为要拒绝原假设,即西北地区的GDP和东部地区的GDP有显著性的差异。有以上分析
11、可以知道我过中部地区和东部地区的经济水平差距不大,但是西北地区与中、东部地区差距很大,说明我国不同地区的经济发展不平衡。四,相关分析1 .散点图绘制散点图是相关分析过程中极为常用且极为直观的分析方式。它将数据以点的形式画在直角平面上。通过观察散点图能够直观的发现变量间的统计关系以及他们的强弱程度和数据对的可能走向。我分析总人口数与GDP的散点图散点图如下:50000.00-40000.00-30000.00-Q.a020000.00-10000.00-0.00-2000400060008000总人口数1000012000GDP Pearson 相关性显著性(双侧)N总人口数Pearson相关性
12、可以看到它们之间有强的正线性相关。2 . Pearson简单相关系数Pearson简单相关系数用来度量两定距型变量间的线性相关性。相关性GDP 总人口数1.834”.00031 31.831.000显著性(双侧)NI 31 I 31*.在.01水平(双侧)上显著相关。从上表可以看到GDP与总人口数的相关系数为0.834,显著性小于0.05,说明它们之间有很强的相关关系。这也从侧面反映出我过的经济发展对人口数量的依赖性,我国的人均经济贡献率是比较小,说明我国人口的素质比较低。这样的经济质量是不好的,不确定因素太多。虽然我国经济总量很大,但是不高的经济质量是要引起我们高度关注的。3.偏相关分析就相
13、关系数本身来讲,它未必是两事物间线性相关强弱的真实体现,往往有夸大的趋势。例如在研究GDP和总人口数、规模以上工业总产值之间的线性关系时,GDP和规模以上工业总产值之间的相关关系实际还包括了总人口数对GDP的影响。因此在这种情况下,单纯利用相关系数来评价变量之间的相关性显然是不准确的,而需要在剔除其他相关因素影响下计算变量间的相关性。偏相关分析的意义就在于此。它在控制其他变量的线性影想的条件下分析两变量间的线性相关性。下面我来分析剔除规模以上工业总产值的影响后的GDP与总人口数之间的相关关系:分析结果如下:相关性控制变量GDP总人口数规模以上工业总产值GDP相关性1.000.683显著性(双侧).000df028总人口数相关性.6831.000显著性(双侧).000*df280可以看到GDP与总人口数之间的偏相关系数为0.683,检验的显著性水平小于().05,这明显小于前面分析的他们之间的相关系数0.834,说明规模以上工业总产值对GDP与总人口数间的相关系数有一定的影响。而0.683才是G