久久刺激cijilu福利72_ 數據挖掘：基于R語(yǔ)言的實(shí)戰

第5章我們繼續來(lái)學(xué)習一種無(wú)監督的數據挖掘方法——聚類(lèi)分析。通過(guò)聚類(lèi)分析我們可以觀(guān)察到數據是怎么聚集在一起的，還可以用來(lái)描述數據的分布情況。聚類(lèi)分析的應用十分廣泛，例如通過(guò)對客戶(hù)聚類(lèi)來(lái)對其進(jìn)行細分以便為客戶(hù)個(gè)性化制定營(yíng)銷(xiāo)策略。本章重點(diǎn)介紹了兩種常用的聚類(lèi)方法：k均值聚類(lèi)法和層次聚類(lèi)法，并在方法介紹完畢之后討論如何確定最優(yōu)類(lèi)別數。章節的最后提供了一個(gè)基于R語(yǔ)言的聚類(lèi)分析案例，供小伙伴們操作起來(lái)。

5.1節討論了觀(guān)測之間的距離度量問(wèn)題。在聚類(lèi)前，我們首先應對數據的各連續變量做標準化處理，以避免方差大的變量在計算距離時(shí)影響太大而影響聚類(lèi)結果。常用的一些距離度量包括歐式距離、切比雪夫距離、曼哈頓距離、閔可夫斯基距離，還有針對非負定比變量的堪培拉距離，以及當變量有不同測量尺度時(shí)的Gower距離。當變量個(gè)數過(guò)多時(shí)，還可以考慮根據變量的相關(guān)性強弱來(lái)進(jìn)行變量聚類(lèi)。

5.2節詳細介紹了最常用的聚類(lèi)方法之一——k均值聚類(lèi)法。K均值法是一種事先定義聚成幾類(lèi)的聚類(lèi)方法，它的核心思想有兩點(diǎn)，一是每個(gè)類(lèi)的中心是這個(gè)類(lèi)所有點(diǎn)的平均值，二是每個(gè)點(diǎn)距離其自身所在類(lèi)中心的距離比到別的類(lèi)中心的距離近。

5.3節介紹層次聚類(lèi)法。層次聚類(lèi)法是一種逐步聚合或分割產(chǎn)生類(lèi)的方法，分類(lèi)的層次可以用樹(shù)形圖表示，樹(shù)的根部表示所有觀(guān)測都聚到同一類(lèi)，樹(shù)的葉節點(diǎn)表示每個(gè)個(gè)體獨自成一類(lèi)。5.3節的第二部分介紹了類(lèi)別之間距離度量的7種方法，分別是完全連接法、單連接法、平均連接法、McQuitty法、Median法、Centroid法、Ward法。

5.4節介紹了確定最優(yōu)類(lèi)別數的3種方法，分別是Dindex法、Silouette法和Pseudo T2法，詳細展示了如何利用Dindex值和碎石圖來(lái)確定類(lèi)別數。

5.5節提供了一個(gè)聚類(lèi)分析的R語(yǔ)言小案例，代碼示例均給出了詳細的注釋?zhuān)』锇閭兛旄?zhù)一起學(xué)起來(lái)吧！

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久