数据挖掘:聚类分析及其应用.doc
上传人:yy****24 上传时间:2024-09-10 格式:DOC 页数:3 大小:27KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘:聚类分析及其应用.doc

数据挖掘:聚类分析及其应用.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

聚类分析及其应用摘要:数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术。其中聚类分析(ClusterAnalysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。关键词:数据挖掘,聚类分析,聚类算法,中医临床正文:挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。聚类分析(ClusterAnalysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为:1)划分方法,2)层次的方法,3)基于密度的方法,4)基于网格的方法,5)基于模型的方法。如果聚类分析被用作描述或者探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。划分方法:给定一个包含n个数据对象或元组的数据库,一个划分方法构建数据的c个划分,每个划分表示一个簇,且c≤n。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。这些聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。层次方法:对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚类。基于密度的方法:提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。基于网格的方法:基于网格的聚类方法采用一个多分辨率的网格数据结构。把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。基于模型的方法:基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种聚类方法试图优化给定的数据和某些数学模型之间的适应性。聚类分析在数据挖掘中的应用聚类分析在数据挖掘中的应用主要有两个方面:一、聚类分析可以作为其他算法的预处理步骤,这些算法再在生成的簇上进行处理。可作为特征和分类算法的预处理步骤,也可将聚类结果用于进一步关联分析。二、可以作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步分析。可用在市场细分、目标顾客定位、业绩评估、生物群种划分等方面。如在商务上,聚类分析可以帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。三、聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为。聚类分析在中医方面的运用:聚类分析在中医辨证客观化、定量化、标准化的研究中,多用于疾病的中医证候分类,为中医临床辨证论治依据提供分型的方法学。由于采集的中医证候信息数据为属性变量,这种变量的特点给聚类分析方法的选择带来一定的局限性。因此在病例的聚类过程中,需进行多种聚类方法的探索性分析。如欧爱华等在SARS与急性上呼吸道感染中医证候分型及指标数量化方法的研究中,运用组间均联法(Between-groupslinkage)和最小方差法(Ward'sMethod)的同时也进行了其他的聚类方法的探索性分析。目前,常用于中医证候聚类分型的方法有:最小方差法、组间均联法,所选择的测度(距离)有:欧几里德距离、形状测度(Shape)等。由于对聚类分析方法优劣的评价至今尚无系统的检验理论,因此在样品聚类分析中,最重要的是根据病人四诊指标的变量类型,进行多种聚