内容发布更新时间 : 2025/1/11 9:46:58星期一 下面是文章的全部内容请认真阅读。
古扎拉蒂《计量经济学》4人大版读书笔记
第一章 回归分析的性质
“回归”一词是费朗西斯·高尔顿在研究子女身高与父母身高的关系时提出来的,他发现,给定父母的身高,子女的身高会趋向于或“回归”到总人口的平均身高。换言之,父母异常高或异常矮,其儿子的身高都会趋向于或回归到所有男子的平均身高。
统计关系与确定性关系的区别:先看了解什么叫确定性关系,某个应变量确定的依赖于自变量,数学中和经典物理学中的各种定律都是确定性的关系,比如宇宙间两个粒子的引力
离,k是比例常数,给
定两个粒子质量和他们间的距离,那么他们之间的引力随机可以确定,而且是唯一的。而统计关系是不确定性的,应变量和自变量间是统计依赖关系,给定解释变量的某个取值,不能预测因变量的确定取值,因为这时因变量的取值有着概率分布范围,所以我们说它是一个随机变量,如农作物的收成对气温、降雨量、光照条件的依赖关系是统计性质的,这个性质的意义在于影响农作物的因素(变量)还有很多很多,无法一一辨认出来,无论考虑的多少个解释变量,都无法完全解释农作物收成这个因变量,所以它内在的或随机的变异是存在的。 回归和因果:统计关系式本身不能意味着任何因果关系,回归分析研究一个变量对另一些变量的依赖关系但他们绝不是因果关系。对于因果关系的理念,必须来自与统计学之外的经验或者理论,比如说用经济学的理论来说明价格对需求变动的影响。
回归与相关的区别:回归区分哪个是解释变量,哪个是被解释变量(因变量),相关不区分两者,也就是说前者变量间是不对称的,后者变量间是对称的。另一方面,相关分析中的所有变量被看作都是随机的,而回归分析则基于以下假定:因变量是随机的,而解释变量是固定的或者非随机的。
给定每个x,都有很多相应的y值(即y有一个分布范围),但不可能知道每一个y的值,所以我们用回归线来预测y的均值
第二章 回归分析的一些基本概念
1、条件均值(条件期望值):为什么叫“条件”?因为他们取决于(条件)变量x的给定值,E(Y|Xi)读成给定X下Y的期望值,与E(Y)的区别:E(Y)是总体的Y的均值
2、随机或统计总体回归函数(statistical PRF):E(Y|Xi)=B1+B2Xi;非随机的或确定的总体回归函数(non-stochastic PRF):Yi=B1+B2Xi+μi,μi的方差记为σ2。 3、样本回归函数(SRF):Yi^=b1+b2Xi;随机样本回归函数:Yi=b1+b2Xi+ei,各小写字母都
?,??是真正的但未知的σ2的是总体回归函数中对应大写字母的估计量。ei的方差记为?22?开方的正数OLS估计量。?2
(公式中的符号μ帽改为e,其他不变)被称为
回归估计的标准误差(标准误),即Y对估计的回归线的离差的标准差,用于衡量所估计的回归线的拟合优度(goodness of fit)。 4、标准误和标准差的区别(个人理解):标准误衡量的是一个估计量的精度问题,标准误越大,估计量对真实值的估计就越不精准;标准差则是一组数据的离散程度的度量,标准差越大,该组数据越离散。
第三章 双变量模型:估计问题
1、最小二乘法(点估计):A、样本回归函数中使用;B、使得Σei2=f(b1,b2),要使minΣei2,分别对b1,b2的偏导等于零的时候可以使得Σei2最小,得出正规方程12
运算求得b2? (可以这样记忆:就是
SRFi
加和)、
(可以这样记忆就是SRFi*Xi再加和);C、通过简单代数
?xy?xi2ii??XY?nXY?X?nXii2i2,b1?Y?b2X
2、经典线性回归模型(CLRM):最小二乘法的基本假定(都是针对PRF而不是SPF的)
假定1:回归模型对参数而言是线性的。Yi=B1+B2Xi+μi
假定2:在重复抽样中X值是固定的,即X是非随机的。每一个固定的Xi值都会有一个Y总体(即给定一个Xi值会有若干个Y值对应),而且每次抽样(重复抽样)的时候Xi都是同一个值,来看Y是怎么如何取值的,这意味着我们的分析是条件回归分析,即以回归元X的给定值作为条件的。
假定3:干扰项μi的均值为零。E(μi|Xi)=0。给定X,对应的Y值都是围绕其均值分布的,最终Y与其均值的离差会互相抵消,所以μi的均值为零。这意味着凡是模型未包含的且归属于μi的因素对Y的平均影响为零。
假定4:同方差性或者的μi方差相等。这意味着给定X值的Y总体有相同的分布或相同的方差
同方差
假定5:各干扰项之间无自相关。给定两个X值,Xi和Xj(i不等于j),μi和μj的相关性为零。设想μi和μj正相关,那么Yi不仅依赖于Xi而且依赖于μj,因为μj在一定程度上决定了μi。
假定6:Xi和μi的协方差为零。干扰项μ和解释变量X是不相关的,即可以区分Y受到的只是X的影响,而不会收到随机干扰项中未纳入模型的因素的影响。
假定7:观测次数n必须大于待估计的参数个数。
假定8:X值要有变异性。给定一个样本,X值不可以全是相同的。 假定9:正确的设定了回归模型。即在经验分析中,模型没有设定偏差。 假定10:没有完全的多重共线性。即解释变量之间没有完全的线性关系。 3、在统计学中一个估计量的精密度(或者可靠性)可以用它的标准误(se)来度量。 4、最小二乘估计量的性质:高斯-马尔可夫定理、最优线性无偏估计(BLUE)。
5、(样本)判定系数r2:“拟合优度”的一个度量。r2测度了在Y的总变异中由回归模型解释的部分所占的百分比。而r2的开平方根r则是样本的相关系数。在对时间序列数据的回归中通常能得到很高的r2值,而横截面数据的回归中得到r2的值较低是因为样本单位的分散性所致。
第四章 经典正态线性回归模型
1、μi的正态性假定:μi~(0,σ2)
2、正态性假定下估计的性质:b1~(B1,σb12),b2~(B2,σb22)
第五章 双变量回归:区间估计与假设检验
1、B1、B2、σ2三个统计量的区间估计(运用OLS计算得出的b1、b2、?:构?2是点估计值)造t变量、B1的置信区间、B2的置信区间、构造χ2变量、σ2的置信区间、 2、假设检验:
(1)置信区间法:一个决策规则 (2)显著性检验法:两个决策规则 3、显著性检验的决策语言: 4、2倍t经验法则:双侧、单侧 5、两类错误的相对代价:
6、精确的显著性水平p值:|t|(t=)值越大,估计的b2值越远离假设的B2值,则说明数据(样本)越不支持虚拟假设(H0:B2=0),真实的B2不等于零就越显著,查t表可知同样自由度下,|t|越大,p值越小。在回归结果中,p值与|t|成反向变动,t统计量的p值(即t等于多少时,对应的p值是多少)是精确的显著性水平(α),p值越小B2不等于零就越显著。
7、P值判断:对于双边检验,当P值小于α(给定的置信水平)时即可判断通过t检验;对于单边检验,当P/2值小于α(给定的置信水平)时,即可判断通过t检验。 8、回归分析与方差分析:
第十章 多重共线性
1、完全共线性和近似共线性:完全的多重线性关系即X间有准确的线性函数关系,如下面情形:。不完全的多重共线性(近似共线性)即X间不是准确的线性函数关系,而是高度相关关系,如。完全共线性的情形用ols估计各参数是不可能的,近似共线性的情形中,不管相关度有多高,只要不等于1,用ols估计各参数都是可能的。
2、注意:多重共线性仅对X变量之间的线性关系而言的,若解释变量之间有非线性关系,比如变量X1和X12是非线性的函数关系,严格的讲并不违反无多重共线性假定。但这种情况,X1和X12是的相关系数将会接近1,那么他们的系数将很难准确(即以较小的标准误差估计)。另外,由于多重共线性是对假定的非随机的解释变量之间的关系而言的,所以它是一种样本现象,而非总体特征;多重共线性是一个程度问题而不是有无问题,有意义的程度不在于有无之间而在于它的不同的程度。 3、多重共线性的实际后果: