如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第2章双变量回归分析:一些基本概念回归分析是要根据解释变量的已知或给定值,去估计或预测因变量的总体均值假如我们要研究每周家庭消费支出Y与每周可支配的家庭收入X之间的关系假设这个国家的家体的总体由60户家庭组成。可以按收入的高低把这60户家庭分组,每一组的组内收入相差不大。假定我们得到的观察值如表2.1所示一个例子表2.1X:每周家庭收入($)表2.1的含义:它给出了以X的给定值为条件的Y值的条件分布(conditionaldistribution)因为表2.1代表一个总体,我们可以从表中计算出给定X的Y的概率,这在统计上叫做什么?比如:对Y的每一个条件概率分布,我们所计算出它的均值(mean或averagevalue),称为条件均值(conditionalmean)或条件期望(conditionalexpectation),记做:比如,给定X=80散点图表明对应于各个X值的Y的条件分布,它表明随着收入的增加,消费支出平均地说也在增加。Y的条件均值随X增加而增加。图中的粗圆点(大的黑点)表示Y的各个条件均值Y的条件均值落在一条正斜率的直线上,这条线叫总体回归线(populationregressionlineorcurve),它代表Y对X的回归从几何意义上讲,总体回归曲线就是,当解释变量取给定值时,因变量的条件均值或条件期望的轨迹图2.1可以画成图2.2的形式可见,对应于每一个Xi都有一个Y值的总体和一个相应的条件均值。而回归直线(曲线)正好穿过这些条件均值总体回归函数(PRF,populationregressionfunction)由图2.1和图2.2可见,每一个条件均值都是的一个函数,即:(2.2.1)这个方程就叫做(双变量的)总体回归函数(PRF)或简称总体回归(populationregression,PR),它表明Y的均值或平均响应(averageresponse)是如何随X而不同的具体函数形式如何确定是一个经验问题,已知的经济理论可以给我们一些指导。假如,是的线性函数:(2.2.2)和为回归系数(regressioncoefficients),(2.2.2)称为线性总体回归函数,或简称线性总体回归。在我们的课程中,回归,回归方程和回归模型将不加以区分,作为同义词使用“线性”一词的含义(2.2.2)式被称为“线性”总体回归,其中的“线性”的含义是什么?它可以作两种解释:(1)对变量为线性即:Y的条件期望值是的线性函数,从几何意义上看,这样的回归曲线是一条直线。诸如:这样的回归函数,就不是线性的。(2)对参数为线性即Y的条件期望是参数的一个线性函数;它既可以是也可以不是变量X的线性函数这样以来,就是一个线性回归模型,而则不是线性的。在今后的课程中,我们讲的“线性”指的是对参数为线性的情况,对解释变量则可以是也可以不是线性的。如:是一个LRM(linearregressionmodel)PRF的随机设定我们现在再回到表2.1和图2.1,可见,随着家庭收入↑,家庭消费支出平均地看也会↑;但是对具体的某一个家庭的消费支出却不一定随收水平↑而↑给定收入水平的个别家庭的消费支出,聚集在收入为的所有家庭的平均消费支出的周围,也就是围绕着它的条件均值个别的Yi围绕它的期望值的离差(deviation)可以表示如下:或(2.4.1)离差ui是一个不可观测的随机变量,称之为随机干扰(stochasticdisturbance)或随机误差项(stochasticerror)从计量经济学上看,对于给定的X水平,个别家庭的支出可以分解为两个部分:①表示收入相同的所有家庭的平均消费支出,称为系统性(systematic)或确定性(deterministic)成分(component)。②ui为随机的或非系统性成分(nonsystematiccomponent)。它是代表所有可能影响Y的,但又没有包括到回归模型中的替代(surrogate)或代理(proxy)变量假定对是线性的,(2.4.1)式便可以写为:(2.4.2)它表示消费支出Y线性地依赖于相应的收入和随机扰动项由(2.4.1)式:两边取期望值得:而也就是,所以有:(2.4.5)这就是说,给定Xi,ui的条件均值等于零。随机干扰项的意义干扰项是模型中省略掉的,又集体地影响Y的全部因素(变量)的替代物(surrogate)那么,为什么不构造一个含有尽可能多的解释变量的复回归模型呢?原因如下:理论的含糊性:现有的理论往往是不完全的。物理学上有个“测不准定理”:我们永远不可能接近真实的世界,因为我们的观测总是要借助于工具和环境数据的欠缺:比如,在