内容发布更新时间 : 2025/1/12 17:00:23星期一 下面是文章的全部内容请认真阅读。
第十一章 多元线性回归与logistic回归
一、教学大纲要求
(一)掌握内容
1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。 4.logistic回归模型结构:模型结构、发病概率比数、比数比。 5.logistic回归参数估计方法。
6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。 (二)熟悉内容
常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容
标准化偏回归系数的解释意义。
二、教学内容精要
(一) 多元线性回归分析的概念
将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归(multiple regression)
基本形式:
??b?bX?bX?????bX Y01122kk?为各自变量取某定值条件下应变量均数的估计值,X,X,…,X为自变量,k为式中Y12k
自变量个数,b0为回归方程常数项,也称为截距,其意义同直线回归,b1,b2,…, bk称为偏回归系数(partial regression coefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一个单位后Y的平均改变量。
(二) 多元线性回归的分析步骤
?是与一组自变量X,X,…,X相对应的变量Y的平均估计值。 Y12k
多元回归方程中的回归系数b1,b2,…, bk可用最小二乘法求得,也就是求出能使估计
22??值Y和实际观察值Y的残差平方和?ei??(Y?Y)为最小值的一组回归系数b1,b2,…,
bk值。根据以上要求,用数学方法可以得出求回归系数b1,b2,…, bk的下列正规方程组
(normal equation):
98
?b1l11?b2l12???bkl1k?l1y??b1l21?b2l22???bkl2k?l2y ?
??b1lk1?b2lk2???bklkk?lky?式中
lij?lji??(Xi?Xi)(Xj?Xj)??XiXj? liy?(?Xi)(?Xj)n
?(Xi?Xi)(Y?Y)??XiY?(?Xi)(?Y)n常数项b0可用下式求出:
b0?Y?b1X1?b2X2???bkXk
(三)多元线性回归分析中的假设检验
在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X1,X2,…,Xk是否与Y真有线性依存关系,也就是检验无效假设H0(?1??2??3????k?0), 备选假设H1为各?j值不全等于0或全不等于0。
检验时常用统计量F
F?MS回归MS误差?l回归kl误差(n?k?1)
式中n为个体数,k为自变量的个数。
式中 l回归?b1l1y?b2l2y???bklky
l误差?l总?l回归
l总???Y?Y??lyy
2(四) logistic回归模型结构
设X1,X2,?,Xk为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。
Logistic回归模型为:
e?0??1X1??2X2????kXkP?1?e?0??1X1??2X2????kXk同时可以写成:
Q?11?e?0??1X1??2X2????kXk
式中?0是常数项;?j(j?1,2,?,k)是与研究因素Xj有关的参数,称为偏回归系数。 事件发生的概率P与?x之间呈曲线关系,当?x在???,??之间变化时, P或Q在(0,1)之间变化。
若有n例观察对象,第i名观察对象在自变量Xi1,Xi2,?,Xik作用下的应变量为Yi,阳性
99
反应记为Yi=1,否则Yi=0。相应地用Pi表示其发生阳性反应的概率;用Qi表示其发生阴性反应的概率,仍然有Pi+Qi=1。Pi和Qi的计算如下:
e?0??1Xi1??2Xi2????kXikPi?1?e?0??1Xi1??2Xi2????kXik1Qi?1?e?0??1Xi1??2Xi2????kXik比取自然对数得到关系式:
ln??
这样,第i个观察对象的发病概率比数(odds)为PiQi,第l个观察对象的发病概率比数为PlQl,而这两个观察对象的发病概率比数之比值便称为比数比OR(odds ratio)。对比数
?PiQi????1(Xi1?Xl1)??2(Xi2?Xl2)????k(Xik?Xlk) ??PlQl?等式左边是比数比的自然对数,等式右边的Xij?Xlj???j?1,2,?,k?是同一因素Xi的不同
暴露水平Xij与Xlj之差。?j的流行病学意义是在其它自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的e?j倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。
(五)logistic回归参数估计
由于logistic回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate)求解模型中参数?j的估计值bj(j?1,2,?,k)。
Y为在X1,X2,?,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:
应?1,第i个观察对象出现阳性反 Yi??
0,第i个观察对象出现阴性反应?第i个观察对象对似然函数的贡献量为:
Yi1?Yili?PQ ii当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献
量的乘积,即
L??li??PiYiQi1?Yi
i?1i?1nn式中∏为i从1到n的连乘积。
依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求
100