如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
朱连华Tel:13675122648南京信息工程大学数理学院统计系E-mail:ahualian@126.com第六章聚类分析聚类分析的基本思想聚类分析的应用:无处不在早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)为什么这样分类?(分类的好处)因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以……制定更吸引的服务,留住客户!比如:一定额度和期限的免息透支服务!金鹰的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!例1对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。三、聚类分析类型及方法1、聚类分析的类型有:对样本分类,称为Q型聚类分析对变量分类,称为R型聚类分析Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。2、聚类分析的方法:系统聚类(层次聚类)非系统聚类(非层次聚类)系统聚类包括:凝聚方式聚类、分解方式聚类非系统聚类包括:模糊聚类法、K-均值法(快速聚类法)等等相似性度量距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系。变量可分为定性变量和定量变量。若按测量尺度的不同可以分为:(1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。(2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、二等品、三等品等有次序关系。(3)名义尺度变量:变量用既没有数量关系也没有次序关系,只有一些特性状态,如性别、职业、产品的型号等。一、间隔尺度变量的相似性度量1、距离设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为:每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。第i个样本与第j个样本之间的距离记为聚类过程中,相距较近的点归为一类,相距较远的点归为不同的类。第i个和第j个样品之间的距离满足四个条件:常用距离:(1)、明考夫斯基距离(Minkowskidistance)明氏距离有三种特殊形式:(1a)、绝对距离(Block距离):当g=1时明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:其中为第j个变量的样本均值;为第j个变量的样本方差。如何避免明氏距离的缺点:(3)兰氏距离当时:(4)马氏距离马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。2、相似系数相似系数(或其绝对值)越大,变量之间