主成分分析与因子分析.ppt
上传人:sy****28 上传时间:2024-09-10 格式:PPT 页数:67 大小:2MB 金币:12 举报 版权申诉
预览加载中,请您耐心等待几秒...

主成分分析与因子分析.ppt

主成分分析与因子分析.ppt

预览

免费试读已结束,剩余 57 页请下载文档后查看

12 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

主成分分析与因子分析英国统计学家MoserScott1961年在对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95%的原始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。美国统计学家Stone在1947年关于国民经济的研究,它根据美国1927年到1938年的数据,得到17个反映国民收入与支出的变量要素,经过因子分析,得到了3个新的变量,可以解释17个原始变量97.4%的信息。根据这3个因子变量和17个原始变量的关系,Stone将这3个变量命名为:Z1——总收入。Z2——总收入率。Z3——经济发展或衰退的趋势(时间t的线性部分)。根据这3个变量的命名含义,可以看出这3个新的变量是可以测量的。Stone把实际测量3个变量的值(C1,实际测量总收入;C2,实际测量总收入率;C3,时间因素)和因子分析得到的3个变量值进行相关性分析,得到的结果如下表所示。在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变最进行人量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。因此,有可能用较少的综合指标分析存在于各变量中的各类信息,这些被抽象出来的综合指标之间彼此不相关,且能反映原来众多变量的主要信息,称之为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。即是一种通过显在变量来测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的特点因子分析的数学模型因子分析中的几个概念公共因子Fj的方差贡献:为因子载荷矩阵A中第j列各元素的平方和,即:因子分析的个基本步骤确定待分析的原有若干变量是否适合于因子分析1、巴特利特球形检验(BartlettTestofSphericity)反映像相关矩阵检验以变量的偏相关系数矩阵为出发点,将偏相关系数矩阵的每个元素取反,得到反映像相关矩阵。偏相关系数是在控制了其他变量对两变量影响的条什下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小。因此,如果反映像相关矩阵中有些元素的绝对值比较大,那么说明这些变量不适合作因子分析。3.KMO(Kaiser-Meyer-Olkin)检验Kaiser给出了一个KMO的标准:0.9<KMO:非常适合;0.8<KMO<0.9:适合;0.7<KMO<0.8:一般;0.6<KMO<0.7:不太适合;KMO<0.5:极不适合。构造因子变量主成分分析通过坐标变换手段,将原有的p个相关变量xi,作线性变化,转换为另外一组不相关的变量yi,可以表示为:主成分分析放在一个多维坐标轴中看,是对x1、x2、x3…xp组成的坐标系进行平移变换,使得新的坐标系原点和数据群点的重心重合,新坐标系的第一个轴与数据变化最大方向对应(占的方差最大,解释原有变量的能力也最强),新坐标的第二个轴与第一个轴正交(不相关),并且对应数据变化的第二个方向…因此称这些新轴为第一主轴u1、第二主轴u2…若经过舍弃少量信息后,原来的p维空间降成m维,仍能够十分有效的表示原数据的变化情况。生成的空间L(u1,u2,…,um)称为“m维主超平面”。用原样本点在主超平面上的投影近似地表示原来的样本点。主成分分析的步骤计算数据的协方差矩阵R确定m有两种方法:一是,根据特征值的大小确定,一般取大于l的特征值;二是,根据因子的累计方差贡献率来确定。如果数据已经标准化,则:因子变量的命名解释载荷矩阵A中某一行中可能有多个aij比较大,说明某个原有变量xi可能同时与几个因子有比较大的相关关系。载荷矩阵A中某一列中也可能有多个aij比较大,说明某个因子变量可能解释多个原变量的信息。但它只能解释某个变量一小部分信息,不是任何一个变量的典型代表。会使某个因子变量的含义模糊不清。在实际分析中,希望对因子变量的含义有比较清楚的认识。这时,可以通过因子矩阵的旋转来进行。正交旋转、斜交旋转、方差极大法,其中最常用的是方差极大法。计算因子得分估计因子得分的方法有:回归法Bartlette法Anderson-Rubin法合作性Statistics:Univariatedescriptives:要求输出各变量的均数与标准差。Initialsolulion:表示输出初始分析结果。输出的是因子提取前分析变量的公因子方差,是一个中间结果。对主成分分析来说,这些值是要进行分析变量的相关或协方差矩阵的对角元素;对因子分析模型来说,输出的是每个变量用其他变量作预测因子的载荷平方和。CorrelationMatrix:Coefficients:要求计算相关系数矩阵。