主成分分析的原理与实现PPT.ppt
上传人:天马****23 上传时间:2024-09-09 格式:PPT 页数:41 大小:1.3MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

主成分分析的原理与实现PPT.ppt

主成分分析的原理与实现PPT.ppt

预览

免费试读已结束,剩余 31 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

主成分分析的原理与实现优选主成分分析的原理与实现当然不能。汇报什么?发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。主成分分析(PrincipalComponentsAnalysis)和因子分析(FactorAnalysis)就是把变量维数降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量(这与聚类分析不同),只是几个指标的综合。在引入主成分分析之前,先看下面的例子。成绩数据从本例可能提出的问题事实上,以上的三个问题在地理学研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。比如对n个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分区域间差异的目的。二、主成分分析的基本原理(一)主成分分析的几何解释空间的点那么随机向量对应的特征向量分别为:一般取累计贡献率达85%~95%的特征值从几何上看,找主成分的问题就是找出p维空间中椭球体的主轴问题,就是要在x1~xp的相关矩阵中m个较大特征值所对应的特征向量。一是根据特征根(Eigenvalues)的数值,系统默认的是λ=1。这一两个综合变量包含有多少原来的信息呢?2)计算各主成分的得分打开抽取对话框。i,k=1,2,…,m;可选此项,否则用途不大。如果认为最后的提取的主成分数量偏多,则可以提高λ值,例如取λ=1.选中原始分析结果(Initialsolution)复选项,则会给出主成分载荷的按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根λ设置完成以后,单击Continue按钮完成设置。则输出结果中将会给出原始数据的抽样均值、方差和样本数目主成分分析的原理与实现事实上,随机变量Y1和Y2的方差分别为:在上面的例子中Y1和Y2就是原变量X1和X2的第一主成分和第二主成分。实际上第一主成分Y1就基本上反映了X1和X2的主要信息,因为图中的各点在新坐标系中的Y1坐标基本上就代表了这些点的分布情况,因此可以选Y1为一个新的综合变量。当然如果再选Y2也作为综合变量,那么Y1和Y2则反映了X1和X2的全部信息。从几何上看,找主成分的问题就是找出p维空间中椭球体的主轴问题,就是要在x1~xp的相关矩阵中m个较大特征值所对应的特征向量。究竟提取几个主成分或因子,一般有两种方法:特征值>1那么如何提取主成分呢?假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标②z1是x1,x2,…,xP的一切线性组合中方差最大者(最能解释它们之间的变化),z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵(也就是x1,x2,…,xP的相关系数矩阵)m个较大的特征值所对应的特征向量。三、主成分分析的计算步骤(一)计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj标准化后的相关系数,rij=rji,其计算公式为(二)计算特征值与特征向量1、解特征方程,求出特征值,并使其按大小顺序排列;3、计算主成分贡献率及累计贡献率贡献率4、计算主成分载荷在主成分之间不相关时,主成分载荷就是主成分zi与变量xj之间的相关系数(在数学上可以证明)5、各主成分的得分得到各主成分的载荷以后,可以按照(3.5.2)计算各主成分的得分(3.5.6)在新坐标系中,可以发现