如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
Ch1.传统观点下的多元线性回归模型回顾问题的提出我们认为,要关注的结果与个因素有关,。(其中是截距项,一个量纲标准化的单位指标。)例如:已婚工作妇女的工资(logwage)与工作经验(exper)、工作经验的外在性作用()、受教育程度(educ)、该妇女的年纪(age)、家庭少于6个孩子(kidslt6)以及家庭中孩子至少6岁以上的个数(kidage6)有关,并建立如下的模型:对上述模型,我们做如下说明:关于命题:要关注的结果:已婚工作妇女的工资。影响结果的因素:自身的经验、教育、年龄;和孩子的年龄与多少。注:1.结果与哪些因素有关不是绝对的,例如在中国影响工资的一个重要因素是所在行业,另外社会关系也是不可忽视的,等等。命题与你的目的和知识相关,并且命题要求表述得越清楚越好。关于模型:模型是命题的数学表达,是命题的深化、细化和抽象化。从命题到模型是一个不断提炼的过程。建立一个“好”的模型,取决于我们对命题认识的深入程度和相关知识的储备。一般而言,多元线性回归模型的基本框架是:假设与有因果关系。如果观测的数据来源是:,且存在单调连续函数,使得:,,。那么,定义多元线性回归模型:。即:,称是关于未知参数的多元线性回归模型。这里是随机误差项,称为解释变量,是确定性变量。称为因变量或被解释变量。线性模型的类型主要有:多项式模型:或例如,库兹涅茨倒U形曲线和拉弗曲线等。对数线性模型:(增长率之间存在因果关系,例如生产函数。)倒数线性模型:或(因果呈反向关系,如菲利普斯曲线)指数线性模型:(原因是影响增长率的因素,例如上例)Logit线性模型:(因果呈慢,快,慢的变化趋势,并有饱和)如图:虚拟变量(DummyVariable)模型:解释变量中有些变量变化是“不均匀”的,观测数据在不同时段或不同地区不同行业或不同政策等之下有明显不同的特点。在散点图上,表现为某个解释变量或整体上与因变量有跳跃或转折现象。如图:解决办法是引入虚拟变量。设D是虚拟变量,则D描写的是一种状态,只取1或0为值。1表示受到某种因素影响,0表示没有受到影响。例如:中,截距受到影响,D对Y有整体影响。又,中,的斜率受到了影响,即D对的影响导致对Y的影响,影响斜率。例如,在上例中对已婚妇女的工资可引入行业的虚拟变量。1国有企业,0非国有企业。注:1。如果的影响是时间特征,则不宜采用虚拟变量。且虚拟变量不宜大量采用。2.经过变换后的数据,参数的含义是不一样的。例如,就是增长率变化的边际效果,又如果,则就是弹性系数。3.模型设定是一个非常“艺术”化的东西,准确的设定模型,合理的选择变量,能使模型反映的经济意义更细致、更明显、解释力更直接。这是一门需要在实践中不断摸索和积累的“艺术”。以后,我们总假定从命题到模型可以标准化为如下形式,简称为基本模型:传统观点下基本模型的假定基本模型是因果关系最简单的量化表述。形式上它由两部分构成,一部分是确定性关系,由表达;另一部分是不确定性关系,由表达。其中是未知参数,在不同的模型假定中有不同的内在含义。一般,指的是因素对结果的边际贡献,没有特定的经济含义。关于解释变量,传统观点假定是确定性的变量,而且对的观测是准确的,对没有任何随机性影响。因此,任何两个或多个解释变量之间没有线性相关关系,且解释变量和误差项也没有线性相关关系。这种传统观点蕴含着对解释变量是可控的,甚至样本的观测也可是预先已知的。因此,没有必要考虑估计和检验的渐近性质。假设我们可以对观测N次,把所有观测排成一个矩阵(加上常数截距项)。称为观测矩阵。那么,传统观点假定,秩,即列满秩。且。注:列满秩不意味且不意味它们就没有其它的非线性关系。又因为是任意正整数,以后任意与任意不加区分。关于误差项,随机并不是全部无知,这里随机项反映的是环境和各种不可预料的因素对产生的影响。因为解释变量是可控的,可以认为随机误差不影响,且对的影响是一个小量。又模型一般设定有中心化常数项,各种不可控的水平(平均)影响都可放到常数项上。故可设,,一般情况下是未知的。传统观点进一步假定,。所以抽样后服从多元正态分布,。关于样本统计量,对解释变量进行N次观测得到的值就是样本。的的抽取传统观点假定是独立的,而事实上在许多情况下,独立性往往办不到,样本有时有群集效应、层次效应、串效应,有时为了某种特殊目的会有意识的选择相关的样本,等等。这些特殊样本的问题正是计量经济学要面对的问题,数据是什么样就是什么样,是不能随意假定的。我们将从第二章开始在现代观点下介绍处理各种特殊样本的方法。显然,抽取的样本越多,与的关系表现得就越明显。但是若不对样本进行整理加工,大量数据的堆积并不能看出与之间的因果关系。我们需要对样本做一些加工,提