模糊聚类分析方法.doc
上传人:sy****28 上传时间:2024-09-13 格式:DOC 页数:6 大小:22KB 金币:14 举报 版权申诉
预览加载中,请您耐心等待几秒...

模糊聚类分析方法.doc

模糊聚类分析方法.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

14 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

模糊聚类分析方法聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1)数据矩阵设论域为被分类对象,每个对象又有个指标表示其性状,即,于是,得到原始数据矩阵为。其中表示第个分类对象的第个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。通常有以下几种变换:①平移·标准差变换其中,。经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的还不一定在区间上。②平移·极差变换,显然有,而且也消除了量纲的影响。③对数变换取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1)相似系数法①夹角余弦法。②最大最小法。③算术平均最小法。④几何平均最小法。以上3种方法中要求,否则也要做适当变换。⑤数量积法,其中。⑥相关系数法,其中,。⑦指数相似系数法,其中,而。(2)距离法①直接距离法,其中为适当选取的参数,使得,表示他们之间的距离。经常用的距离有海明距离。欧几里得距离。切比雪夫距离。②倒数距离法。其中为适当选取的参数,使得。③指数距离法。3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法①传递闭包法根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。用二次方法求的传递闭包,即=。再让由大变小,就可形成动态聚类图。②布尔矩阵法布尔矩阵法的理论依据是下面的定理:设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。布尔矩阵法的具体步骤如下:①求模糊相似矩阵的截矩阵.②若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的为等价矩阵。因此,由可得水平上的分类。(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:①取(最大值),对每个作相似类,且=,即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现,,.此时只要将有公共元素的相似类合并,即可得水平上的等价分类。②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。④以此类推,直到合并到成为一类为止。(3)最大树法所谓最大树法,就是画出以被分类元素为顶点,以相似矩阵R的元素为权重的一颗最大的树,取定,砍断权重低于的枝,得到一个不连通的图,各个连通的分支便构成了在水平上的分类。下面介绍求最大树德克鲁克法设,先画出所有顶点,从模糊相似矩阵R中按从大到小的顺序依次画枝,并标上权重,要求不产生圈,直到所有顶点连通为止,这就得到一颗最大树(最大树可以不唯一)。二、最佳阈值的确定在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法:①按实际需要,在动态聚类图中,调整的值以得绞实钡姆掷啵恍枰孪茸既返毓兰坪醚居Ψ殖杉咐唷5比唬部捎删哂蟹岣痪榈淖医岷献ㄒ抵度范ㄣ兄担佣贸鲈谒缴系牡燃鄯掷?②用F统计量确定最佳值。[11]设论域为样本空间(样本总数为),而每个样本有个特征:,。于是得到原始数据矩阵,如下表所