随机误差测试练习题.docx
qx11x12,XIp、71、)2=1x2x22x2pi+2Jxnxn2xnp>血、叫3.1即y=Xp+e基本假定(1)解释变量乂162.鹏是确定性变量,不是随机变量,且要求rank(X)=p+1<n,表明设计矩阵X中自变量列之间不相关,样本量的个数应大于解释变量的个数(2)随机误差项具有零均值和等方差,即高斯马尔柯夫条件E()=O,r=1,2,cov(<,r.6y)=«20r(3)对于多元线性回归的正态分布假定条件的矩阵模型为eN(0,2I)随即向量yN(X氏/()3.2当(XX)-存在时,回归参数的最小二乘估计为/=(XS)TXW,要求出回归参数夕,即要求xx是一个非奇异矩阵,xxo,所以可逆矩阵Xa为P+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X)zp+1,而'IIX(IH4)阶矩阵,于是应有nm4结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n必须大于模型自变量P的个数。SSE=S(yr-y)2=e2+e22-en2r=1a211'I1ftE()=E(SSE)=E(Yer2)=YE(er2)np-np-Enp-1»1»1=口3)+(E(g)2=yD(er)=-Y(1-Arr)2n-p-r=1n-p-r=1n-p-1=-(1-rr)2=-×(n-(p+1)×2=2n-p-r=r=P-I注(”)=Z"=p+1r13.4 不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n有关,当样本量个数n太小,而自变量又较多,使样本量与自变量的个数接近时,后易接近1,其中隐藏一些虚假成分。3.5 当接受H。时,认定在给定的显著性水平。下,自变量x1,x2,xp对因变量y无显著影响,于是通过x1,x2,XP去推断y也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y的自变量漏掉了,可以重新考虑建模问题。当拒绝H。时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2,XP与自变量y的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。3.6 中心化经验回归方程的常数项为O,回归方程只包含p参数估计值瓦灰,M比一般的经验回归方程减少了一个未知参数,在变量较多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要。在用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。3.7对r=A。+/IXr1+尸2R2+X进行中心化处理得yr-y=I(R1-X1)+1(Xr2-X2)+A,g-k)再将等式除以因变量的样本标准差值则有.yy>z-2py=,=11(Xr1-X1)H(Xr2-X2)÷H/(X卬-Xp)=y1yy1yy/1、1yy人."""人f人t"/3W1I1(Xr1X1)+122(Xr2X2)+J&p(XT-XP)_J1SyJ1IIJ1yyJZz22J1yyJ1PP1Xr1+1Xr1÷÷pX所以0=噜J=12P3.8(4为相关阵(%)网,第1行,第j列的代数余子式)-12-(-i),+2223311r21-r23mJ(I-723?)(1713一)=-1=1122SSR(j)1/I、ASSRASSE(j)SSE(j)SSE(j)-=(H-D-I)X=(-p-1)×=(2-p-1)×(×)SSE1SSESSESSE(j)SSE(n-p-1)ASSE(j)SSE(j)21、/n/ryj=5-p7)F(一P力小于1,Fj与小一一对应,所以口与4等价3.10SSRn-p-F_7_xSSE_F+(n-p-)pSSR二n.p-T、-PTpSSEpn-p-SSRSSRPSSE=SSRSSESSR=2n-p-SSRSSR+SSESSESSTSST0SSE证得一1r+(-p1)/p3.11(1)相关性yx1x2x3yPcarson相关性1.556.731*.724,显著性(双侧).095,016.018N10101010x1Pearson相关性,5561.113.398显著性(双侧),095,756.254N10101010x2Pearson相关性.73.1131.547显著性(双侧).016,756.101N10101010x3Pearson相关性.7241.398.5471显著性(双侧),018,254.101N10101010*.在0.05水平(双侧)上显著相关。/1.0000.5560.7310.724所以"°5561.0000.1130.398II0.7310.1131.0000.5470.7240.3980.5471.000/(2)<3)(4)(5)(6)模型汇总模型RR方调整R方标准估计的误差1.898i1.806,70823.44188a.预测变量:(常量),x3,x1,x2。Anovak模型平方和df均方Sig.1回归13655.37034551.7908.283.015,残差3297.1306549.522总计16952.5009a.预测变量:(常量),x3,x1,x2。b.因变量:y模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-348.280176.459-1.974.096X13.7541.933.3851.942.100x27.1012.880.5352.465.049x312.44710.569.2771.178.284a.因变量:y1回归方程为y=-348.280+3.754x1+7.101x2+12.447x32复相关系数R=0898,决定系数为0.806,拟合度较高。3方差分析表,F=8283,P值=0.015v0.05,表明回归方程高度显著,说明x1,x2,x3,整体上对y有高度显著的线性影响4回归系数的显著性检验X1工业总产值的P值=0.100X2农业总产值的P值=0.049X3居民非产品支出的P值=0.284在0.1的显著性水平上,x3未通过检验,应将其剔除掉输入/1多去的变量卜模型输入的变量移去的变量方法1x2,x1a输入a.已输入所有请求的变量。b.因变量:y模型汇总模型RR方调整R方标准估计的误差1.872“.761,69224.08112a.预测变量:(常量),x2,x1。Anovak模型平方和df均方FSig.1回归12893.19926446.60011.117,007残差4059.3017579.900总计16952.5009a.预测变量:(常量),x2,x1。b.因变量:y模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-459.624153.058-3.003,020X14.6761.816.4792.575,037x28.9712.468.6763.634.008a.因变量:yi回归方程为y=-459.624+4.676x1+8.971x22复相关系数R=0872,决定系数为0.761,由决定系数看回归方程接近高度相关3方差分析表,F=I1.117,P值=0.007,表明回归方程高度显著说明x1,x2,整体上对y有高度显著的线性影响4回归系数的显著性检验X1工业总产值的P值=0.037X2农业总产值的P值=0.008在0.05的显著性水平上,自变量x1,x2对y均有显著影响(7)系数模型非标准化系数标准系数tSig.B的95.0%置信区间B标准误差试用版下限上限1(常量)-459.624153.058-3.003.020-821.547-97.700X14.6761.816.4792.575.037.3818.970x28.9712.468.6763.634.0083.13414.808a.因变量:y(8)标准化回归方程y=0479x1+0676x2(9)把x01=75,x02=42带入y=459.624+4.676x1+8.971x2得y=267.86y置信水平95%的区间估计为(211.09492,324.57506)y置信水平95%的近似区间估计为(219.6978,316.0222)E(y)置信水平95%的区间估计为(245.00541,290.66457)(10)由于X3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好。3.12输入/1多去的变量卜模型输入的变量移去的变量方法1x2,x1a输入a.已输入所有请求的变量。b.因变量:y模型汇总模型RR方调整R方标准估计的误差11.000j.999.9991189.51547a.预测变量:(常量),x2,x1。Anovab模型平方和df均“FSig.1回归1.809E1029.046E96393.516,OOO4残差16979364.566121414947.047总计1.811E1014a.预测变量:(常量),x2,x1。b.因变量: