数据挖掘与用户画像学习教案.pptx
上传人:王子****青蛙 上传时间:2024-09-13 格式:PPTX 页数:12 大小:286KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘与用户画像学习教案.pptx

数据挖掘与用户画像学习教案.pptx

预览

免费试读已结束,剩余 2 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学用户(yònghù)画像的价值用户(yònghù)画像构建流程数据(shùjù)收集用户(yònghù)行为建模用户画像基本(jīběn)成型数据(shùjù)可视化分析聚类分析-K均值(jūnzhí)算法K值估计对于k值,必须提前知道,这也是kmeans算法的一个缺点。当然对于k值,我们可以有很多种方法进行估计。本文中,我们采用平均直径法来进行k的估计。也就是说,首先视所有的点为一个大的整体cluster,计算所有点之间距离的平均值作为该cluster的平均直径。选择初始质心的时候,先选择最远的两个点,接下来从这最两个点开始,与这最两个点距离都很远的点(远的程度为,该点到之前选择的最远的两个点的距离都大于整体cluster的平均直径)可视为新发现的质心,否则不视之为质心。设想(shèxiǎng)一下,如果利用平均半径或平均直径这一个指标,若我们猜想的K值大于或等于真实的K值,也就是簇的真实数目,那么该指标的上升趋势会很缓慢,但是如果我们给出的K值小于真实的簇的数目时,这个指标一定会急剧上升。根据这样的估算思想,我们就能估计出正确的k值,并且得到k个初始质心,接着,我们便根据上述算法流程继续进行迭代,直到所有质心都不变化,从而成功实现算法。如下图所示:层次(céngcì)聚类算法详解及实现C4.5算法(suànfǎ)