偏最小二乘方法.ppt
上传人:yy****24 上传时间:2024-09-10 格式:PPT 页数:47 大小:1.2MB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

偏最小二乘方法.ppt

偏最小二乘方法.ppt

预览

免费试读已结束,剩余 37 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第六章偏最小二乘方法§6.1多元线性回归(MLR)若用图形表示,则为:(3)m<n,变量数小于试样数,尽管我们得不到准确解b,但是可以使残差矢量e尽可能小而得到解,若用矩阵标表示,则:对于2-P个因变量的图形表示为:事实上,完全满足上述条件比较困难。当噪声较强,或干扰较严重时,有可能导致所得数学模型失真,如下例:式中,yik为矩阵Y中第i行第k列的矩阵元,为由矩阵B所得的计算值,ik为前面所介绍的矩阵E的矩阵元。此例中,Err=0.49。对于此模型,Err=0.07。它比前者为小,这就意味着对于矩阵Y,第二个数学模型比第个要更有效,这是一种假象。由于X中引入最后一列,使得B2中上部3*3部分与前边所提B不相等(B为真实模型)。由B2计算所得Y尽管误差要小,但其数学模型所描述的自变量与因变量间的关系并不真实。其原因主要为多元线性回归方法是采用整个X矩阵来建立数学模型,而并不顾及在X中的信息与真实模型相关与否。很显然,若所得结果偏离了其实际数学模型,则对于未知试样的预测也是错误的。§6.2主成分回归设矩阵X的阶为I*J,若T的阶与J相等,则主成分回归与多元线性回归所得结果相同,并不能显示出主成分回归的优越之处。选取的主成分数一般应该比J小,而删去那些不重要的主成分,因为这些主成分所包含的信息主要是噪声,由此所得的回归方程稳定性较好。综合上述,X可由它的得分矩阵T来描述(由于删去与小的本征值相应的维,所以T的维小于X的维):主成分分析可以解决共线问题,同时由于去掉了不太重要的主成分,因而可以削弱噪声(随机误差)所产生的影响。但是,由于主成分回归为二步法,若在第一步中消去的是有用的主成分,而保留的是噪声,则在第二步多元线性回归所得结果就将偏离真实的数学模型。§6.3偏最小二乘(PLS)偏最小二乘和主成分分析很相似,其差别在于用于描述变量Y中因子的同时也用于描述变量X。为了实现这一点,在数学上是以矩阵Y的列去计算矩阵X的因子,与此同时,矩阵Y的因子则由矩阵X的列去预测。其数学模型为:T=XP(主成分分析)TP’=XPP’PP’=IX=TP’(因子分析)在理想的情况下,X中误差的来源和Y中的误差的来源完全相同,即影响X与Y的因素相同。但实际上,X中误差与Y中误差并不相关,因而t≠u,但当两个矩阵同时用于确定因子时,则X和Y的因子具有如下关系:如假设X矩阵和Y矩阵均为6*3,即行为6,列为3。在列空间,X和Y矩阵的行分别示于图6.1(上部)。PLS第一个因子(t和u)方向在各自的空间均可解释试样的最大偏差。若PLS模型是正确的,将t对u作图则可得一线性关系。事实上,PLS要将各自空间中的因子进行折衷以增加t对u的相关性(图6.1下部)。由于这种折衷才可使所得数学模型较好地同时描述X和Y。在行空间,情况与列空间类同。如有矩阵(见§6.2):将t对u作图(图6.2)可显示出二者的线性关系,其斜率b=0.53。对于未知试样的预测,要应用X和Y的得分模型及相关性bi。若有L个因子,则bl为表达第l个因子相关性的系数,其步骤为:由未知试样的测定值x末通过校正模型(式(6.4)计算出t末,进而由(式6.6)及bl可计算未知试样的得分矢量u末,最后由校正模型(式6.5)得未知试样含量。§6.3.2偏最小二乘算法对于Y:在上述的算法中,X和Y是分别独立进行的,为了建立二者内在的相关性,则将得分t和u在步(2)中的位置相交换(上述算法中的括号内部分);此算法一般收敛很快。所得到的为X和Y的经过旋转的主成分,即t不互相正交,其原因是在主成分计算中,运算的顺序发生了变化。因此,将权重w’(见上述运算中括号内等式)替代p’,并在收敛之后,再加入:其残差的计算分别为:对于X块:收敛测试:计算回归系数b以用于内部关联:3.未知样本预测(4)h>α(主成分数)到步(5),否则到步(3)。确定主成分数的一种方法是以式(6.8)中Fh的模数为判据。图6.3为模数对主成分数所得关系曲线,可以选定某值作为门限,当小于此值时,则停止迭代。再一种方法为交叉验证法。在这种方法中计算一统计量PRESS(predictionresidualsumofsquares),即预测残差之平方和。如图6.4所示,显然,人们总是希望采用某一主成分数时所产生的PRESS为最小。但最小的位置常难以准确确定。用这种方法确定主成数非常类似于测定下限的概念。所谓测定下限即在噪声存在下最小可以检出的信号。在图6.4的情况下,因子数可取4—8。5.应用实例—腐植酸和木质磺酸盐的荧光分光光度分析[5]这三种化合物不仅发射光谱严重重叠,同时在溶液中相互间有影响,如图6.6所示,三种纯物质的发射光谱加和(—)与其混合溶液的发射光谱(––––)并不一样,这就进一步增加了问题的复杂性.但是借助于偏最小二乘法,