如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
资源与环境应用数学课件第六章数据分类§6.1聚类分析对应课本第3章第4节本章内容§6.1§6.2§6.3聚类分析主成分分析判别分析2008-10-312学习目的与要求掌握聚类分析、主成分分析、判别分析方法的原理、计算方法、应用背景。对比分析聚类、判别与主成分分析方法的异同,在比较中掌握各种方法的运用。2008-10-313学习建议1、学习重点与难点聚类分析、主成分分析、判别分析2、学习的建议课前预习,课后认真复习并做作业。2008-10-314§4.1聚类分析学习目的1、了解适合于用聚类分析解决的问题2、理解对象间的相似性是如何测量3、区别不同的距离4、区分不同的聚类方法及其相应的应用5、理解如何选择类的个数6、了解聚类分析的局限性2008-10-315本节主要内容一、聚类分析的基本思想二、相似性度量1、距离的计算2、聚类要素的数据处理三、系统聚类法1、系统聚类法的过程2、直接聚类法3、最短距离法4、最远距离法5、系统聚类法的统一四、计算步骤与上机实现(案例分析)(1)指标选择(2)聚类计算(3)聚类结果分析2008-10-316一、聚类分析的基本思想认识世界的一种重要方法是对认识对象分类。分类的依据同类事物间有更多的近似性;不同类事物间有更多的差异性。基本原理根据样本自身的属性,找出度量样品或指标间的相似程度的统计量,定量地确定样本间的亲疏关系,并按这种亲疏关系对样本进行聚类。聚类的种类类:相似样品(或指标)的集合称类。Q型聚类分析:对样品的分类R型聚类分析:对变量(指标)的分类2008-10-318Q型与R型聚类的作用Q型聚类是对样本数据进行聚类,使具有共同特征的样本聚集在一起,下一步可以对不同类中的样本作分析;R型聚类是对变量进行,使具有共同特征的变量聚在一起,下一步经从不同类中分别挑选出具有代表性的变量作分析,从而减少分析变量的个数。2008-10-319聚类对象与指标数据一个事物常用多个变量来刻画,每个样本有n个指标(变量)描述,故每个样本点可看成是n维空间中的一个点,m个样本就组成n维空间中的m个点。聚类对象(m个样本)12......i......mn个指标(变量)X1x11x21……xi1……xm1X2x12x22……xi2……xm2……………………………………Xnx1nx2n……xin……xmn二、相似性度量(一)距离的计算距离可测度事物间差异性,差异性越大,则相似性越小,故距离是系统聚类分析的依据和基础。2008-10-3111距离参数①绝对值距离②欧氏距离③明科夫斯基距离④切比雪夫距离⑤马哈劳林比斯距离2008-10-3112距离指标①绝对值距离dij=(P72公式有错)∑nxik?xjkk=1i,j=1,2,……,m;k=1,2,……,ndij表示第i个样本与第j个样本绝对值距搿?dij构成一个m×m的矩阵2008-10-3113距离指标(续)②欧氏距离dij=2(xik?xjk)∑k=1ni,j=1,2,……,m;k=1,2,……,ndij表示第i个样本与第j个样本欧氏距离。2008-10-3114距离指标(续)③明科夫斯基距离dij=[∑xik?xjk]pk=1n1pp=1即是绝对距离;p=2即是欧氏距离。i,j=1,2,……,m;k=1,2,……,n2008-10-3115距离指标(续)④切比雪夫距离。当明科夫斯基距p→∞时,有dij=maxkxik?xjki,j=1,2,……,m;k=1,2,……,n取研究单元(样本)i、j在各指标(判别要素)k数值差中的绝对值最大的一项作为距离。dij=[∑xik?xjk]pk=12008-10-31n1p16距离指标(续)⑤马哈劳林比斯距离dij=D=(xi?xj)Σ(xi?xj)2?1TΣ-1是各判别要素的方差-协方差矩阵Σ的逆矩阵,Σ矩阵各要素为:1nδij=∑(xki?xi)(xkj?xj)n?1k=1i,j=1,2,……,m;k=1,2,……,n相似系数指标相似系数也可用于测度研究单元间相似程度。相关系数相似系数夹角余弦2008-10-3118相似系数指标:相关系数rij=lxylxx?lyyCij(1)=rij=∑(xnk=1k=1nki?xi)(xkj?xj)2[∑(xki?xi)∑(xk=1nkj?xj)]212i,j=1,2,……,m;k=1,2,……,