全面Logistic回归模型详细版.docx

上传人：lao****ou

文档编号：415355

上传时间：2023-10-29

格式：DOCX

页数：20

大小：196.40KB

《全面Logistic回归模型详细版.docx》由会员分享，可在线阅读，更多相关《全面Logistic回归模型详细版.docx（20页珍藏版）》请在第一文库网上搜索。

1、1ogistic回归模型1 1ogistic回归模型的根本知识1.1 1ogiStiC模型简介主要应用在研究某些现象发生的概率p,比方股票涨还是跌，公司成功或失败的概率，以及讨论概率P与那些因素有关。显然作为概率值，一定有0p1,因此很难用线性模型描述概率P与自变量的关系，另外如果P接近两个极端值，此时一般方法难以较好地反映P的微小变化。为此在构建P与自变量关系的模型时，变换一下思路，不直接研究p,而是研究P的一个严格单调函数G(p),并要求G(P)在接近两端值时对其微小变化很敏感。于是1ogit变换被提出来：1ogit(P)=1n(1)I-P其中当P从Of1时，1OgiKP)从一8这个变化范

2、围在模型数据处理上带来很大的方便，解决了上述面临的难题。另外从函数的变形可得如下等价的公式：1ogit(p)=n-f-=,X=P=r(2)I-Pi+ex模型(2)的根本要求是,因变量Iy)是个二元变量,仅取0或1两个值,而因变量取1的概率P(y=1X)就是模型要研究的对象。而X=(1E,电，XA),，其中Z表示影响y的第i个因素，它可以是定性变量也可以是定量变量，B=(BO,?。为此模型可以表述成：Pe%+即产-外，In=0+,xxHFkxk=p=-7(3)_pkof1Uy+Jo+g+显然E(y)=p,故上述模型说明In一是玉,x2,的线性函数。此时我们称满足上面条件1-E(y)的回归方程为1

3、OgiStiC线性回归。1ogistic线性回归的主要问题是不能用普通的回归方式来分析模型，一方面离散变量的误差形式服从伯努利分布而非正态分布，即没有正态性假设前提；二是二值变量方差不是常数，有异方差性。不同于多元线性回归的最小二乘估计法那么(残差平方和最小)，1ogistic变换的非线性特征采用极大似然估计的方法寻求最正确的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。定义1称事件发生与不发生的概率比为优势比(比数比oddsratio简称OR),形式上表示为OR=(4)1-p定义21ogiStiC回归模型是通过极大似然估计法得到的，故模型好坏的评价准那么有似然值来表征,称-2

4、In1()为估计值方的拟合似然度，该值越小越好，如果模型完全拟合，那么似然值1()为1,而拟合似然度到达最小，值为0。其中/“1(N)表示6的对数似然函数值。定义3记Ma/)为估计值/的方差-协方差矩阵，S()=W(/)E为方的标准差矩阵，那么称为夕的Waki统计量，在大样本时，吗近似服从N?)分布，通过它实现对系数的显著性检验。定义4假定方程中只有常数项4,即各变量的系数均为0,此时称z2=-21n1()-1M)为方程的显著性似然统计量，在大样本时，力?近似服从2(幻分布。1.21OgiStiC模型的分类及主要问题根据研究设计的不同,1ogisiic回归通常分为成组资料的非条件1OgiSti

5、C回归和配对资料的条件1OgiS1iC回归两种大类。还兼具两分类和多分类之分，分组与未分组之分，有序与无序变量之分。具体如下：两分类非条件1ogiSIiC回归：分组数据的1OgiStiC回归，未分组数据的1ogiSIiC回归；多分类非条件1ogistic回归：无序变量1ogiS1iC回归，无序变量1ogistic回归；条件1OgiSIiC回归：1:1型、1:M型和M:N型1OgiS1iC回归。关于1OgiS1iC回归，主要研究的内容包括：1 .模型参数的估计及检验2 .变量模型化及自变量的选择3 .模型评价和预测问题4 .模型应用21OgiStiC模型的参数估计及算法实现2.1 两分类分组数据

6、非条件1ogistic回归因变量(反响变量)分为两类，取值有两种，设事件发生记为y=1,不发生记为y=0,设自变量X=(M,/，尸是分组数据，取有限的几个值；研究事件发生的概率尸(y=1X)与自变量X的关系，其1ogistic回归方程为:ZVV=I1Y)网格明In=&+6内+kxk或P(y=X)=AP(y=0|X)产IFAv71+v+-川在一次住房展销会上，与房地产商签订初步购房意向书的有n=325人，在随后的3个月时间内，只有一局部顾客购置了房屋。购置房屋的顾客记为1,否那么记为0。以顾客的年家庭收入(万元)作为自变量X序号年家庭收入X（万元）签订意向人数实际购买人数11.525822.53

7、21333.5582644.5522255.5432066.5392277.5281688.5211299.51510再为治疗组指标（1为治疗组，O为对照组），为年龄组指标（1为45岁，O为其他）。序号治疗分组再年龄分组/有疗效无效合计111321850210402060301213152400184058上述两个例子数据都是经过统计加工后的分组数据，对此类数据进展1ogiStiC回归，首先要明确应变量对应事件的发生概率如何确定和进展1Ogi1变换，其次才能建立1ogiS1iC回归。为便于数据处理，我们将此类数据的格式作个约定，排列格式为（组序号，自变量X,该组事件发生数，该组总例数）。表2.

8、1.1改造表表2.1.2改造表该组发生事件数m经过改造后，可得我们关心的事件的发生的频率为Pi=U1,i=1,2,。其中该组总例数n.为分组数，然后作1ogiI变换，即瓦=g(Pj)=1n2。变换后的数据，形式上已经可以采用一般I-Pi的线性回归的处理方式来估计回归参数了。此时方程变为：P,=A+-，=1，2,/J=I当然这样处理并没有解决异方差性，当?较大时，瓦的近似方差为：D(pi)%=(%)nii(-i)所以选择权重例=%Pi(1-p),i=1,2-/,最后采用加权最小二乘法估计参数。注意，分组数据的1OgiStiC回归只适用于大样本分组数据，对小样本的为分组数据不适用，并且以组数为回归

9、拟合的样本量，明显降低了拟合精度，在实际应用中必须慎重。求解算法及步骤：1 .依据分组数据的标准格式，计算频率P,.、1Ogi1变换瓦和权重用2 .构建加权最小二乘估计：“kkZ例(K-A)-WZ%)2=Z(MK-血A)-MZ即y,=Ij=f=Ij=令/=yiyi,X；=(M，M/,疯/)/,=(o,k)T那么方程又变成一般的线性回归模型：min(y；X；)?(9)1=13 .构造增广矩阵X*7*X*7y*1bg2利用消去法得=W6)囱矩阵，得到估计6Cp其中“XK+2为残差平方和SE,回归方差=n-k-各系数检验采用ti=-t(n-k-Y)R&n(例咒)2总平方和ST=Z例y；,回归平方和S

10、R=STSE，=，I?”总平方和求解相当于拟合y；=&M方程的残差平方和，故得上式Sr所以方程的检验为尸=变色F(k,n-k-1)SE(n-k-1)数据1Ogit变换及权重家庭年收入X实际购置mi签订意向ni比例Pi逻辑变换IQgit权重ni*pi(I-Pi)1.5000008250.320000-0.7537725.4400002.50000013320.406250-0.3794907.7187503.50000026580.448276-0.20763914.3448284.50000022520.423077-0.31015512.6923085.50000020430.465116-

11、0.13976210.6976746.50000022390.5641030.2578299.5897447.50000016280.5714290.2876826.8571438.50000012210.5714290.2876825.1428579.50000010150.6666670.6931473.333333总样本9求解方法加权最小二乘仅常数项betaO-0.095029方程F统计量51.982160F分布自由度1,7方程检验P值0.000176总平方和8.798294回归平方和7.754112残差平方和1.0441811OgiStiC回归系数检验序号均值回归系数系数标准误t统计量

12、自由度df检验P值常数项2.837815-0.8488820.113578-7.47399470.000056家庭年收入X14.9011400.1493230.0207117.20986570.000056XXi0.086479-0.014517-0.0145170.0028760.848882+0.149323X本例1ogistic模型的回归方程：Pi=+/0.848882+0.149323X对于多分类无序自变量的1OgiS1iC回归，即某个自变量为6个水平的名义变量(如治疗方法只需要引入m-112个)个哑变量，然后采用上述方法进展分析。2性别治疗方法有效犯无效总例数%男A7828106B1

13、0111112C6846114女A40545B54559C34640由于治疗方法有三种，没有等级关系，所以属于无序的名义变量，故引入两个哑变量，当分别代表A和B疗法，其中=1,%3=O表示方法A,工2=，工3=1表示方法B,x2=O,X3=0性别再%2有效“总例数为.1107810610110111210068114010404500154590003440对于分类数据，也可以采用极大似然法进展参数估计，具体见22节最后局部内容。2.2两分类未分组（连续）非条件1ogistic回归应变量y取值为0和1,设事件发生记为y=1,否那么为0,设自变量X=（M,，Z）,，组观测数据记为（,xj2,y,.）,i=1,2,。记Xj=（I,茗,七2，为法）,，XiO=1，那么先与Xix,石2，xk的1ogiStiC回归模型是：0+f1xi+,+kxikJTXiE（X）=f（。+R+Q=*Ww（，0）1rc+e1易知，E是均值为乐的0-1型分布，其分布律为/（）=打产（1一万,）f，yi=0,1u=1,2,n那么必，为，%的似然函数和对数似然函数分别为：乙=口乃/(1-町广叶i=1In1

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

3 金币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 全面 Logistic 回归模型详细

第一文库网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：全面Logistic回归模型详细版.docx
链接地址：https://www.001doc.com/doc/415355.html