多元统计分析分析简介.ppt
上传人:sy****28 上传时间:2024-09-15 格式:PPT 页数:62 大小:2.7MB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

多元统计分析分析简介.ppt

多元统计分析分析简介.ppt

预览

免费试读已结束,剩余 52 页请下载文档后查看

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

聚类分析聚类分析例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些指标(变量)的相似程度,将相似的样品或指标归类的统计方法。二、相似性的量度1样品相似性的度量——距离1)明考夫斯基距离(简称明氏距离)q=1:绝对距离;q=2:欧式距离;q=:切比雪夫距离。欧氏距离是常用的距离,其不足在于一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。2)马氏(马哈拉诺比斯)距离(亦称广义欧氏距离)设Xi与Xj是来自均值向量为,协方差为∑=(>0)的总体G中的p维样品,则两个样品间的马氏距离为马氏距离与明氏距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。3)兰氏距离它仅适用于一切Xij>0的情况,这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。距离选择的原则(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。多元数据中的变量表现为向量形式,在几何上可用多维空间中的一个有向线段表示。在对多元数据进行分析时,变量间的相似性,可以从它们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。1)夹角余弦两变量Xi与Xj看作n维空间的两个指标向量,显然,∣cosαij∣1。2)相关系数相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关系数定义为显然也有,∣rij∣1。无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似性的度量工具,把它们统记为cij。当∣cij∣=1时,说明变量Xi与Xj完全相似;当∣cij∣近似于1时,说明变量Xi与Xj非常密切;当∣cij∣=0时,说明变量Xi与Xj完全不一样;当∣cij∣近似于0时,说明变量Xi与Xj差别很大。据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。在实际中,为了计算方便,把变量间相似性的度量公式作一个变换:dij=1∣cij∣或者dij2=1cij2以表示变量间的距离远近,小则与先聚成一类,这比较符合人们的思维习惯。1、选择变量(1)反映分类的目的,反映要分类变量的特征(2)在不同研究对象上的值有明显的差异(3)变量之间不能高度相关2、计算相似性:3、聚类(1)选择聚类的方法:系统聚类、K均值聚类、动态聚类(2)确定形成的类数4、聚类结果的解释和证实对聚类结果进行解释:对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产别的原因。变量聚类分析,聚类之后,各类中仍有较多的指标。也就是说聚类分析并没有达到降维的目的。这就需要在每类中选出一个代表指标。四、系统(层次)聚类分析法系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:第一步:将每个样品(或变量)独自聚成一类,共有n类;第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;第三步:将“距离”最近的两个类进一步聚成一类,共聚成n2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。所以有时系统