流数据的聚类方法研究.ppt
上传人:天马****23 上传时间:2024-09-11 格式:PPT 页数:31 大小:399KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

流数据的聚类方法研究.ppt

流数据的聚类方法研究.ppt

预览

免费试读已结束,剩余 21 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

选题依据流数据数据流的三种模型构造概要数据结构的方法聚类算法性能比较国内外研究动态◇2000年,Guha提出针对数据流聚类的LOCALSEARCH算法。基于分治的思想使用一个不断的迭代过程实现有限空间对数据流进行k-means聚类.。◇2002年,O’Callaghan提出了STREAM,是单层数据流聚类算法的经典之作。◇2003年,AGGARWALC等人设计了一种更加行之有效的算法框架CluStream。双层数据流聚类框架应运而生。◇2003年,Barbard总结了数据流聚类算法的要求,并对一些可能适用于数据流的聚类算法做了一次总结。◇2004年,AGGARWALC提出了一种高维,投影数据流聚类算法HPstream。◇2006年,ZHUWei-Heng等人详细分析了数据流聚类算法CluStream的不足之处,提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream。◇多数据流的实时聚类◇满足用户需求的多数据流聚类◇基于相位差的数据流的聚类◇高维流数据的降维的聚类◇基于密度的流数据的聚类1.多数据流的实时聚类1.多数据流的实时聚类算法CORREL-cluster对不断到达的流数据实时形成其统计信息,并按一定的时间段进行保存。在一定的时间间隔以后,算法根据统计信息进行聚类。提出一种动态的k-means的聚类算法。该算法首先用k-means方法产生初始聚类。在以后的各次聚类操作中,由于流数据的变化是逐渐的,相邻两次的聚类结果之间有大部分是重叠的。因而每次聚类时,仅需在前一次聚类的基础上,用少量的几次k-means迭代就可以得到结果。使用聚类调整算法adjust进行聚类调整,更新k的值。对世界气象数据集的实验实验分析2.满足用户需求的多数据流聚类(3)我们的研究思路我们针对用户的不同需求,设计了一种COR算法框架。该框架包含两个部分:前台信息存储层和后台聚类层。前台信息存储层:保存多条数据流的汇总信息,设计了一种保存信息的机制。将数据流片段按指数递增的形式划分:从小到大分别是:1,2,4,8,…每个级别的片段的个数不能大于一个预定义的门槛值。如果某个级别片段的个数大于门槛值,则合并本级别最早生成的片段,创建一个更高级别的片段。合并操作会导致更高级别片段的连锁合并操作。由以下公式确定各片段数的分配情况。按这种方法可使得用户的查询长度和所能的到的聚类长度的误差最小。后台聚类层根据用户提交的查询长度,从片段表中截取相应长度的信息,然后使用k-Medoids算法聚类。实验分析3.基于相位差的流数据的聚类(2)已有的研究工作已有学者提出若干种方法提取数据流之间的调控信息,包括简单的相关性分析、边检测方法、贝叶斯网络模型。这些方法都没有考虑到数据流之间的时间延迟。HongYan提出了一种基于谱分析的方法,但是该方法考虑的是整条数据流,没有考虑流数据的动态性。(3)我们的研究思路针对这一问题,我们使用基于自回归模型(autoregressivemodeling)的方法来度量序列之间的相关度。将序列分解成谱参数成员之和,再根据谱参数计算相关系数。3.基于相位差的流数据的聚类最终,两个序列之间的相关系数由公式(5)确定。4.高维流数据的降维的聚类(3)我们的研究思路我们把高维流数据的每一属性看成一条数据流,因而一条高维数据流可以看成是多条单属性的数据流。将每一属性标准化后,首先用标准的k-means方法聚类,得到初始的几个类,再根据一定的标准,在每个类中,选择一个有代表性的属性来代表整个类,再参加下一次的聚类,得到最终的结果。5.基于密度的流数据的聚类(2)我们的研究思路我们提出了一种基于密度的数据流实时聚类算法RTCS,可以很好挖掘任意形状的数据。*算法引入数据点的蜕化系数概念,对多维数据和空间单元格动态计算密度。*算法采用了在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类。*算法提出了对孤立点的处理策略,能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响。由于算法无需计算和比较距离,大大提高了执行效率。图785000个数据点的随机分布论文实施计划科研项目情况发表论文情况谢谢各位评审老师!