自动群集侦测.ppt
上传人:天马****23 上传时间:2024-09-10 格式:PPT 页数:21 大小:3.8MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

自动群集侦测.ppt

自动群集侦测.ppt

预览

免费试读已结束,剩余 11 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

自動群集偵測何謂群集(cluster)?把資料庫中的資料分類成群群內同質;群間異質用到幾何學、向量平均自動群集本身很少單獨使用一旦群集偵測出來後,必須利用其他方法來了解群集的意義。在許多案例中,雖然我們可能會懷疑一組非常雜亂的資料中,事實上是由一些更能表現出特性的群集所構成,但我們卻不知如何將其定義,這時候自動群集偵測(automaticclusterdetection)就派上用場了。三個例子三個例子三個例子K平均法(K-mean)我們繼續討論這份k平均法,請特別注意被一個方形圍起來的那個點的命運。根據原本的種子,這個點被分配到第二號種子所控制的群集,因為這個點和這種子最接近。一旦新群集被找出,每一個點再次被分配到質心最接近的群集中,圖10.5顯示新群集的邊界,如同前面,這個界線是由與兩個質心距離相等的點所構成,注意被方塊圖形圍繞的那個點,它原本屬於第二群集,現在被重新分配到第一群集,這種分配資料點到群集中再計算質心的過程一再重複,直到群集邊界不再變動為止。自動群集偵側其實相當簡單-只要一點點幾何學,一些向量平均,一切就搞定了。當我們談到這類的群集資料時,我們直覺的認為同屬一個集群的成員有某一種「自然關連」,它們之間的相似程度應該超過它們和其他群集的相似度。最常用的方法就是將所有變數換算成數值,這筆資料就可以被視為鑋間中的一個點。接著,如果就幾何學而言兩個點很接近,我們就假設它們代表資料庫中相似的資料。這項方法存在兩個問題:其中就幾何學而言,每一個維度有同樣的重要性,但在我們的資料庫中,某一個變數的小改變也許比另一個變數的大改變還要重要。變數的變化解決之道是將相同的資料採用一套不同的幾何學解釋。我們不再將x和y當成空間中的點來測量它們的距離,而是把它們當成向量,測量它們之間角度。在此前題下,向量就是連結我們座標系統原點到由向量值所表示的那一個點的線段。一個向量同時具有大小(原點到該點的距離)與方向,就我們的目的而言,方向比較重要。兩個向量之間的角度提供我們衡量關連性的指標,因為這個向量的角度不會受到同量本身大小的影響(見圖10.6)。事實上,這個角度的正弦值是一個更好的度量指標,因為正弦值是從0(兩個向量平行)到1(兩個垂直)。凝聚(agglomeration)方法凝聚(agglomeration)方法凝聚(agglomeration)方法自動群集偵測的優點自動群集偵測的缺點