如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
桂林电子科技大学数学与计算科学学院实验报告实验室:06406实验日期:2012年5月6日院(系)数学与计算科学学院学号0900720223姓名林荣吉成绩课程名称多元统计分析实验项目名称聚类分析指导教师刘期怀一、实验目的理解聚类分析的基本思想;会用SAS软件编写相关程序和进行聚类分析;会用SAS软件解决实际问题;二、实验要求1.根据实验原理的要求理解系统聚类法的基本步骤;2.会用SAS软件按要求编写相关程序,给出处理结果和检验结果;3.对处理结果进行分析和小结。三、实验原理采用谱系聚类方法,首先视各种样品自成一类,然后把最相似(距离最小或相似系数最大)的样品聚为小类,再将已聚合的小类按其相似性再聚合,随着相似性的减弱,最后将所有样品都聚合成一个大类,从而得到一个按相似性大小聚合起来的一个谱系图。距离作为样品间相似程度的度量本文采用的样品间距离采用欧式距离来度量,即:其基本思想是在样品之间定义距离(或在变量之间定义相似系数),距离代表样品之间的相似程度(或相似系数来代表变量之间的相似程度)。我们还可以对变量进行聚类,其基本思想就是先计算变量之间的相关(或相似)系数矩阵R,然后将起转化为距离矩阵,最后用此距离矩阵进行谱系聚类。我们在SAS中还有VARCLUS(变量聚类)过程专门针对变量进行分类,它根据相关阵或协方差阵对其进行谱系聚类,类的选择原则根据主成分分析的思想,使每一类的第一主成分或中心分量所解释的方差为最大。★谱系聚类法(即系统聚类法),是目前实际中使用最多的一类方法,它是将类由多变少的一种方法。系统聚类分析的方法决定于类间间的距离的定义,常用的方法有8种:1)最短距离法(SINglelinkage)2)最长距离法(COMpletemethod)3)中间距离法(MEDianmethod)4)重心法(CENtroidmethod)5)类平均法(AVErangelinkage)6)可变类平均法(FLExible-betemethod)7)可变法及McQuitty相似分析法(MCQ)8)离差平方和法(WARD)在实际操作中,只要在SAS语句’method=’等号后输入相应的方法的英文代码即可。★谱系聚类的统计量统计量,此统计量可用于评价每次合并时的聚类效果。半偏相关统计量,是上一步的与该步值的差值,当值越大时,说明上一次合并效果越好。伪F统计量,值越大表示这些观测可显著地分为K类。伪统计量该统计量用以评价此步骤合并类和的效果.如该值越大,表示和合并为后类内离差平方和的增量相对和两类的类内离差平方和大,这表明上一次被合并的两个类时很分开的。变量聚类,主要是将变量进行分类,就可以尽量减少变量之间的相关性,便于统计分析,一般我们采用变量系统聚类法。四、实验内容2011年Netbig网大公布的部分高校统计数据。(见教案)利用聚类分析的方法,对以上高校进行分类。突出各高校的强势,加强各高校间的交流,提出合理的建议。五、实验过程原始记录(数据,图表,计算等)导入数据:PROCimportDATAFILE="F:\学习课程\刘期怀多元统计分析实验\实验九\shiyan9.xls"OUT=d641DBMS=EXCELREPLACE;SHEET="Sheet1";GETNAMES=yes;MIXED=NO;SCANTEXT=YES;USEDATE=YES;SCANTIME=YES;RUN;datad641;setd641;labelx1='声誉得分'x2='学术资源得分'x3='学术成果得分'x4='学生情况得分'X5='教师资源得分'x6='物资资源得分';run;用类平均法求解,代码:procclusterdata=d641method=avestdpseudocccouttree=b641;varx1-x6;idschool;run;proctreedata=b641horizontalgraphics;title'使用类平均法的谱系聚类图';run;title;六、实验结果分析或总结图1.6个聚类变量的相关阵的特征值等信息图2类平均法的并类历史过程(这里只列出最后12次)(1)统计量(列标题为RSQ)用于评价每次合并成NCL个类时聚类效果。越大说明NCL个分类越分开;的值是在0和1之间,而且的值总是随着分类个数NCL的减少而变小。如果通过分析值来确定n个样品应分为几类最合适,应该看值的变化。在如,分为7个类之前(NCL大于6)的并类过程中的减少是逐渐的,改变不大,当分为5类时,=0.726,而下一次合并为4类时下降较多(=0.548).下降了0.