第5章我們繼續來(lái)學(xué)習一種無(wú)監督的數據挖掘方法——聚類(lèi)分析。通過(guò)聚類(lèi)分析我們可以觀(guān)察到數據是怎么聚集在一起的,還可以用來(lái)描述數據的分布情況。聚類(lèi)分析的應用十分廣泛,例如通過(guò)對客戶(hù)聚類(lèi)來(lái)對其進(jìn)行細分以便為客戶(hù)個(gè)性化制定營(yíng)銷(xiāo)策略。本章重點(diǎn)介紹了兩種常用的聚類(lèi)方法:k均值聚類(lèi)法和層次聚類(lèi)法,并在方法介紹完畢之后討論如何確定最優(yōu)類(lèi)別數。章節的最后提供了一個(gè)基于R語(yǔ)言的聚類(lèi)分析案例,供小伙伴們操作起來(lái)。
5.1節討論了觀(guān)測之間的距離度量問(wèn)題。在聚類(lèi)前,我們首先應對數據的各連續變量做標準化處理,以避免方差大的變量在計算距離時(shí)影響太大而影響聚類(lèi)結果。常用的一些距離度量包括歐式距離、切比雪夫距離、曼哈頓距離、閔可夫斯基距離,還有針對非負定比變量的堪培拉距離,以及當變量有不同測量尺度時(shí)的Gower距離。當變量個(gè)數過(guò)多時(shí),還可以考慮根據變量的相關(guān)性強弱來(lái)進(jìn)行變量聚類(lèi)。
5.2節詳細介紹了最常用的聚類(lèi)方法之一——k均值聚類(lèi)法。K均值法是一種事先定義聚成幾類(lèi)的聚類(lèi)方法,它的核心思想有兩點(diǎn),一是每個(gè)類(lèi)的中心是這個(gè)類(lèi)所有點(diǎn)的平均值,二是每個(gè)點(diǎn)距離其自身所在類(lèi)中心的距離比到別的類(lèi)中心的距離近。
5.3節介紹層次聚類(lèi)法。層次聚類(lèi)法是一種逐步聚合或分割產(chǎn)生類(lèi)的方法,分類(lèi)的層次可以用樹(shù)形圖表示,樹(shù)的根部表示所有觀(guān)測都聚到同一類(lèi),樹(shù)的葉節點(diǎn)表示每個(gè)個(gè)體獨自成一類(lèi)。5.3節的第二部分介紹了類(lèi)別之間距離度量的7種方法,分別是完全連接法、單連接法、平均連接法、McQuitty法、Median法、Centroid法、Ward法。
5.4節介紹了確定最優(yōu)類(lèi)別數的3種方法,分別是Dindex法、Silouette法和Pseudo T2法,詳細展示了如何利用Dindex值和碎石圖來(lái)確定類(lèi)別數。
5.5節提供了一個(gè)聚類(lèi)分析的R語(yǔ)言小案例,代碼示例均給出了詳細的注釋?zhuān)』锇閭兛旄?zhù)一起學(xué)起來(lái)吧!
聯(lián)系客服