《第一讲普通最小二乘法的代数.docx》由会员分享,可在线阅读,更多相关《第一讲普通最小二乘法的代数.docx(20页珍藏版)》请在第一文库网上搜索。
1、第一讲普通最小二乘法的代数一、问题假定y与x具有近似的线性关系:y =片+丹工+ ,其中是随机误差项。我们对口、川这两个参数的值一无所知。我们的任务是利用样本数据去猜测其、片的取值。现在,我们手中就有一个样本容量为N的样本,其观测值是:(%,%),(% ,%2),(如,/)。问题是,如何利用该样本来猜测片、4的取值?为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴X,纵轴y)。既然y与X具有近似的线性关系,那么我们就在图中拟合一条直线:y = , + xo该直线是对y与x的真实关系的近似,而反,4分别是对片,片的猜测(估计)。问题是,如何确定6。与2,以使我们的猜测看起来是合理的呢?
2、笔记:1、为什么要假定y与X的关系是y = 4 +6X + 呢? 一种合理的解释是,某一经济学理论认为X与y具有线性的因果关系。该理论在讨论x与y的关系时认为影响y的其他因素是不重要的,这些因素对y的影响即为模型中的误差项。2、y = y+ + e被称为总体回归模型。由该模型有:E(x) = y + 1x + E(x)o 既然代表其他不重要因素对y的影响,因此标准假定是: E(ex) = O0 故进而有:E(yx) =+ xx, 这被称为总体回归方程(函数),而八八y = + /I相应地被称为样本回归方程。由样本回归方程确定 的 y 与 y 是有差异的,y-y 被称为残差。进而有:Ay = +
3、 lx+9 这被称为样本回归模型。二、两种思考方法法一:(%, y2与(%, % ,.Jn)是 N 维空间的两点,围与6的选择应该是这两点的距离最短。这可以归结为求解一个数学问题:NNw(x- )2=w(-A-)2A) 1-1,l i=由于凡 -戈.是残差片的定义,因此上述获得反与6的方法即是A与6的值应该使残差平方和最小。法二:给定玉,看起来/与1.越近越好(最近距离是0)。然而,当你选择拟合直线使得力与力是相当近的时候,与力的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,给定拟合直线的选择应该使y与%、%与、n与9n的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦,因此
4、,我们把第二种思考方法转化求解数学问题:NNW(-)2v = W(X- li)2 Nq,B i=Bo,。、i=由于N为常数,因此法一与法二对于求解A与6的值是无差异的。三、求解N定义q=(x-A-自七)2,利用一阶条件,有:/=1m = Z2(y,一4丹七)(1)二。邓。= Z(y 4)/内)=。0)3 = 0由(1)也有:人人y = 0 + 1 N1 N在这里歹丁小、高七笔记:人人这表明:1、样本回归函数勺=A+4X过点(乱歹),即穿过数据集的中心位置;2 y = y (你能证明吗?),这意味着,尽X/X管o 的串值不能保证5 = X,但o 的取值能够保证y的平均值与y的平均值相等;3、虽然
5、不能保证每一个残差都为0,/X但我们可以保证残差的平均值为0。从直觉上看,() 以 作为对o 4 的一个良好的猜测,它们应该满足这样的性质。二工2。B)(fj= (* Bo BlE)Z=O柄=笔记:对于简单线性回归模型:y = /3()+ X + g, 在 OLS 法下,由正规方程(1)可知,残差之和为零【注意:只有拟合宜线带有截距时才存在正规方程(1)Jo由正规方程(2), 并结合正规方程(1)有:wL_ 见练习提示_Zg%=0nWX)七=(.-)(xz.-x) = 0= Cov(,x) = 0无论用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信息价值,那么该估计方
6、法是需要改进的!对模型y = 4利用OLS,我们能保证(1 ):残差均值为零;(2)残差与解释变量X不相关【一个变量与另一个变量相关是一个重要的信息工方程(1)与(2)被称为正规方程,把血二-囚无带入(2),有:-7-3-) = a = Z(yTH1 X (xz - x)上述获得60、幺的方法就是普通最小二乘法(OLS)。(1)验证:a = E(k一刃七=一)(七一无)=一君分1 Yj(xi-x)xi Yj(xi-x)2 Yj(xi-x)2=一府?jxf-Nx2_N提示: 定义Z 的盖墓为z = Z Z,则离差之和5nz =0义为II I7Ii=零。利用这个简单的代数性质,不难得到:(- 7)
7、 - ) = (- y)i(- 7) - ) = x(- -无)笔记:定义y与的样本协方差、X的样本方差分别为:Cov(x, y) = Z(七一无)(y - 刃 / NVar(x) =工(xf)2 / Nnl Covx.y)则 = oVar(x)上述定义的样本协方差及其样本方差分别是对总体协方差5及y其总体方差的有偏估计。相应的无偏估计是:*vsxy=(i-yi-y)(N-)s=l M)2/(n 1)基于前述对Nar()与Cbv(,y)的定义,可以验证:Var(a + bx) = b2Var(x)Cova + bx, y) = bCov(x, y)其中a, b是常数。值得指出的是,在本讲义中,
8、在没有引起混淆的情况下,我们有时也用 Var(x)、Cov(x, y)来表示总体方差与协方差,不过上述公式同样成立。(2)假定y = x + c,用 OLS法拟合一个过原点的直八线: = X,求证在OLS法下有:3-21并验证: x2=x22笔记:1、现在只有一个正规方程,该正规方程同样表明=0 o 然而,由于模型无截距,因此在 OLS 法下我们不能保证Z。=0 恒成立。所以,尽管Zgj =0 成立,但现在该式并不意味着Cbv(C,x)二。成立。2、天截距 回归公式的一个应用:u n(X y)=/ (七君 + (i- )y = 30 + ix + 定义 Fi = yi-y、Di =.- ei
9、=i- 9 则耳=R + ei。按照0LS无截距回归公式,有:.A=E = (-y)-)于_一 ED?(3)圉定y = + ,用OLS法拟合一水平直线,即:y = ,求证,=又笔记:证明上式有两种思路,一种思路是求解一个最优化问题,我们所获得的一个正规方程同样是= o ;另外一种思路是,模型y =分+ 是模型y =万1+的特例,利用工自七=0 的结论,注意到此时玉=1,因此同样有 Z=0。(4)对模型y = +4x + e进OLS估计,证明残差与,样本不相关,即Coy(J) = 0。四、拟合程度的判断(一)方差分解及其R2的定义可以证明,Var(y) = Var(y) + Var() o证明:
10、y = y + Vary = Vary + Var) + 2Covy, 2) Cov(y,) = Cov(Bo + B6) = Cov(x,) = 0/. Vary) = Var(y) + Var()方差表示一个变量波动的信息。方差分解亦是信息分解。建立样本回归函数$ =片+6”时,从直觉上看,我们当然希望关于勺的波动信息能够最大程度地体现关于y的波动信息、。因此,我们定义判定系数心=也02,显然,0r2i如果R2大,则y的波V(y)动信息就越能够被亍的波动信息所体现。R2也被称为拟合优度。当尺2=1时,Var() = 0,而残差均值又为零,因此着各残差必都为零,故样本回归直线与样本数据完全拟
11、合。(二)总平方和、解释平方和与残差平方和定义:TSS = Z(y9)2Ess = X(yi-W = (yi-y)2RSS = ZB 登)2=Z其中TSS、ESS、RSS分别被称为总平方和、解释平方和与残差平方和。根据方差分解,必有:TSS=ESS+RSSo 因止匕,r2=esstss = i-rsstss(三)关于R2的基本结论1、TV也是y与的样本相关系数r的平方。证明:y = y + Cov(y,y) = Var(y) + Cov(,y) = Vary)2 CW(yJ) 乐心) 2 r -2zr(j)zr(j) Var(y)2、对于简单线性回归模型:y = 4+4 + e, R2是y与x
12、的样本相关系数的平方。证明:r2 = C6(y, = Coy2(y,Bo+BQ =升圆廿,工)Var(y)Var(y) Var(y)Var(0+ix) Var(y)Var(x)=。9产 二r2JVMy) JVv(x)练习:(1)对于模型:y = + 证明在OLS法下R2=0。(2)对于模型:y = 0+s + 9证明在OLS法R2=团也区Var(y)警告!软件包通常是利用公式R2=jrsSRS,其中RSS = Z来计算R2。应该注意到,我们在得到结论( -9=(yz - )2 + 时利用了1=0的性质,而该性质只有在拟合直线带有截距时才成立,因此,如果拟合直线无截距,则上述结论并不一定成立,因
13、此,此时我们不能保证R2为一非负值。总而言之,在利用R2时,我们的模型一定要带有截距。当然,还有一个大前提,即我们所采用的估计方法是OLS。五、自由度与调整的R2如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。为什么呢?举一个例子。假如我们用OLS法得到的模型估计结果是:=+y1 + Az- 此时,OLS法估计等价于求解最小化问题:讥 (-A-A-A)20l2 i=令最后所获得的目标函数值(也就是残差平方和)为RSS1。现在考虑对该优化问题施加约束:A=0并求解,则得到目标函数值RSS2。比较上述两种情况,相对于RSS1, RSS2是局部最小。因此,RSS1小于或等于RSS2。应该注意到,原优化问题施加约束后对应于模型估计结果: = %+砧,因此,如果单纯依据R2标准,我们应该增加解释变量以使模型拟合得更好。增加解释变量将增加待估计的参数,在样本容量有限的情况下,这并不一定是明智之举。这涉及到自由度问题。什么叫自由度?假设变量X可以自由地取N个值(%,%2,.,/),那么X的自由度就是N。然而,如果施加一个约束,xi=a,。为常数,那么x的自由度就减少了,新的自由度就是N-1。考虑在样本回归直线R = A + 8网+ A下残差的自由度问题。对残差有多少