如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
会计学用户(yònghù)画像的价值用户(yònghù)画像构建流程数据(shùjù)收集用户(yònghù)行为建模用户画像基本(jīběn)成型数据(shùjù)可视化分析聚类分析-K均值(jūnzhí)算法K值估计对于k值,必须提前知道,这也是kmeans算法的一个缺点。当然对于k值,我们可以有很多种方法进行估计。本文中,我们采用平均直径法来进行k的估计。也就是说,首先视所有的点为一个大的整体cluster,计算所有点之间距离的平均值作为该cluster的平均直径。选择初始质心的时候,先选择最远的两个点,接下来从这最两个点开始,与这最两个点距离都很远的点(远的程度为,该点到之前选择的最远的两个点的距离都大于整体cluster的平均直径)可视为新发现的质心,否则不视之为质心。设想(shèxiǎng)一下,如果利用平均半径或平均直径这一个指标,若我们猜想的K值大于或等于真实的K值,也就是簇的真实数目,那么该指标的上升趋势会很缓慢,但是如果我们给出的K值小于真实的簇的数目时,这个指标一定会急剧上升。根据这样的估算思想,我们就能估计出正确的k值,并且得到k个初始质心,接着,我们便根据上述算法流程继续进行迭代,直到所有质心都不变化,从而成功实现算法。如下图所示:层次(céngcì)聚类算法详解及实现C4.5算法(suànfǎ)