如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第六章聚类分析分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法:可以按照自然条件来分:比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类的目的根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。聚类的种类根据分类的原理可将聚类分析分为:系统聚类与快速聚类根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables)聚类分析(clusteranalysis)聚类分析数据格式例:某煤田中选取9个见煤钻孔,对所有煤层进行工业分析、光谱分析取得一批实验观测数据如下表,运用这些指标对9个煤层进行聚类分析;并运用这些数据对指标变量进行聚类分析。系统聚类的基本步骤(1)构造n个类,每个类包含且只包含一个样品。(2)计算n个样品两两间的距离,构成距离矩阵,记作D0。(3)合并距离最近的两类为一新类。(4)计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。(5)画聚类图。(6)决定类的个数,及各类包含的样品数,并对类作出解释。距离与相似系数(一)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij1.欧式(Euclidian)距离二维空间欧式距离3.明氏(Minkowski)距离实例计算绝对值距离Euclidian距离的平方Euclidian距离变量标准化4.Mahalanobis距离Mahalanobis距离实例5.Lance和Williams距离6.斜交空间距离7.配合距离(二)相似系数1.夹角余弦(Cosine)2.Pearson相关系数系统聚类(hierarchicalclusteringmethod)基本步骤:系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:(1)构造n个类,每个类包含且只包含一个样品。(2)计算n个样品两两间的距离,构成距离矩阵,记作D0。(3)合并距离最近的两类为一新类。(4)计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。(5)画聚类图。(6)决定类的个数,及各类包含的样品数,并对类作出解释。类与类之间的距离距离与相似系数快速聚类法(quickclustermethod,k-meanscluster)也叫动态聚类、逐步聚类、迭代聚类、k-均值聚类。事先要确定分多少类:k-均值聚类小结SPSS聚类分析软件计算与实例分析1.系统聚类指定参与聚类的变量名和样品号StatisticsPlotMethod