如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
理学院信息与计算科学专业实验报告课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:基础楼C-423日期_____姓名张丽芝班级信131学号201307010108___指导教师王恒友成绩【实验目的】(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。【实验要求】根据各个题目的具体要求,分别运用SPSS软件完成实验任务。【实验内容】1、(数据见)给出了1991年我国30个省市、城镇居民的月平均消费数据,所考察的八个指标如下:(单位均为元/人)X1:人均粮食支出;X2:人均副食支出;X3:人均烟酒茶支出;X4:人均其他副食支出;X5:人均衣着商品支出;X6:人均日用品支出;X7:人均燃料支出;X8:人均非商品支出。(1)求样本相关系数矩阵R。(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。并与(1)的结果进行比较【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)11)相关矩阵V2V3V4V5V6V7V8V9相关V2.334.199.349.319V3.334.399.711.414.835V4.533.497.033V5.399.533.698.468.313V6.497.698.280V7.199.711.033.468.280.417.702V8.349.414.417.399V9.319.835.313.702.3992)表:方差贡献率和累计贡献率解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%123.9204.7065.4986.2307.1318.051.643提取方法:主成份分析。由上图可知,只有前两个成分的特征值大于1,所以只选择前两个主成分。第一个主成分的方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。最终聚类中心聚类123V2V3V4V5V6V7V8V92每个聚类中的案例数聚类123有效缺失.000由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。通过K中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。通过分析结果也可知每个地区所属类别。(2)按最短距离法(最近邻居距离)对样本进行谱系聚类分析聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2112001525600335720648900651213001065834775106098340014951170141012145012111516001312121810013131215121116143589151513114181612171301917242500191811915020191224161720201121819232121220022222123210252312020024241262302525121242226261272502727128260282812927029291302800由聚类表可知聚类的具体过程。以第一步为例,样品1和2合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。群集成员案例3群集1:山西12:内蒙古13:吉林14:黑龙江15:河南16:甘肃17:青海18:河北19:陕西110:宁夏111:新疆112:湖北113:云南114:湖南115:安徽116:贵州117:辽宁118:四川119:山东120:江西121:福建122:广西123:海南124:天津125:江苏126:浙江127:北京128:西藏129:上海230:广东3集群成员表如图,当划分为3个类别时,各个地区所属类别。与上一问所得结论有较大出入。上图直观的反应了样品逐步合并的过程。最长距离法(最远邻居距离)聚类表阶群集组合系