第五章-判别分析ppt课件.ppt
上传人:天马****23 上传时间:2024-09-14 格式:PPT 页数:165 大小:5.8MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

第五章-判别分析ppt课件.ppt

第五章-判别分析ppt课件.ppt

预览

免费试读已结束,剩余 155 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第5章判别分析返回5.1.1引例1、引例11、引例12、引例22、引例25.1.1引例这些问题有一个共同的特点,就是事先已有“类”的划分,或事先已对某种已知样本分好了“类”。判别分析要解决的问题就是在已知历史上用某些方法已把研究对象分成若干类的情况下,来判定新的观测样品属于已知类别中的哪一类。1、判别分析基本思想用统计的语言来表达,判别问题可以表述为:对于K个(类)总体G1,G2,……,GK(所有类的样品都测量了相同的p个指标,可表示为一个p维向量),其分布函数分别为F1(X),F2(X),……FK(X)(均为p元分布函数),希望建立一个准则,对于一个给定样品X,依据这个准则就能判断出这个样品来自哪个总体。设有G1、G2、…GK个总体;从不同的总体中抽出不同的样本;根据样本建立判别法则判别新的样品属于哪一个总体;当然,根据不同的方法,建立的判别法则也是不同的,常用的判别方法有:距离判别、Fisher判别、Bayes判别。1、按判别的组数5.1.3判别分析的类型1、按判别的组数分2、按判别函数的形式分3、按判别时处理变量的方法不同4、按判别准则不同1、与聚类分析的区别1、与聚类分析的区别1、与聚类分析的区别5.1.4判别分析与聚类分析的区别和联系聚类与判别5.2距离判别1、距离判别基本思想1、距离判别基本思想用统计语言表述:已知总体G1,G2,……,GK,从每个总体中分别抽取n1,n2,……,nk个样品,每个样品皆测量P个指标,对新样品X=(X1,X2,……,XP),计算X到G1,G2,……,GK的距离,记D(X,G1),D(X,G2)……,D(X,GK),按距离最近准则判别归类:所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样品与某类别之间距离的大小,判别其所属类别。1、两总体距离判别1、两总体距离判别1、两总体距离判别1、两总体距离判别1、两总体距离判别1、两总体距离判别已知时,令于是判别规则(5.1)可表示为:未知时,可用样本来估计。设2008.8它是x的二次函数,相应的判别规则为:需要指出的是,按最小距离规则判别是会产生误判的。为了说明问题,不妨设G1和G2为正态分布,分别为N(μ1,σ2)和N(μ2,σ2)(μ1>μ2),那么由图5-1可以看出:当Y事实上属于G1,它的观察值(测量值)在μ=(μ1+μ2)/2的右边,这时如果按上面讨论的规则就应把Y判断为属于G2,因为Y距G2的均值比距G1的均值要近。这就造成了错判。图5-1由图可以看出,当两总体G1与G2十分接近时,则无论用什么方法,误判概率都很大,这时的判别是没有意义的。即如果两个总体(类别)间的差异本来就不显著,那么就根本没有必要去作判别,即有效的判别必须以显著的差异为前提。因此,在考虑建立判别函数之前,应首先检验总体间是否存在显著的差异(在判别之前应对两总体的均值是否有显著差异进行检验)。另外,以上讨论的判别函数及规则并没有涉及到总体的具体分布类型,只要逆矩阵存在就可以。当两总体的协方差矩阵不同时,就不能用前文的W(X)进行判别,这时可直接计算马氏距离进行判别。2、应用实例类G1为低消费的总体,类G2为高消费的总体。经计算,各类样品的指标均值为:总体协差阵的逆矩阵为:将原27个样品的回判结果及3个待判样品的判别结果列于表Spssex-5:5-2和表5-3,回判误判率为零,西藏、上海、广东1、多总体距离判别类似于两总体情况,计算样品X到每个总体的距离d2(X,Gi)(i=1,2,---k,),然后比较这些距离,如X距离总体Gi的距离最短,则判X属于总体Gi。设有个总体G1,…,Gk,它们的均值分别是,协方差矩阵均是,则判别函数为:相应的判别准则为:1、多总体距离判别相应的判别准则为5.3贝叶斯判别1、距离判别的不足之处1、距离判别的不足之处1、距离判别的不足之处除此之外,还有一个误判损失问题或者说误判产生的花费问题,如把G1的个体误判到G2的损失比G2的个体误判到G1严重得多,则在作前一种判断时就要特别谨慎。譬如在药品检验中把有毒的个体判为无毒的其后果比无毒个体判为有毒的严重得多,因此一个好的判别规则还必须使得误判损失为最小。我们仍以两个总体的情况来讨论,设所考虑的两个总体G1与G2分别具有密度函数f1(x)与f2(x),其中x为p维向量,R1为根据我们的规则要判为G1的那些x的全体,而R2=Ω-R1是要判G2的那些x的全体。显然R1与R2互斥完备,某个个体实际是来自G1,但被判为G2的概率为来自G1被判为G1的概率为类似地,来自G2被判为G1以及来自G2被判为G2的概率分别为又设P1和P2分别表示总体G1和G2的先验概率,且P1+P2=1,于是:判别样品的归属时,考虑的不是建立判别式,而是计算新给样品属于各总体的后验