一、數據挖掘分類(lèi)技術(shù)
數據挖掘是機器學(xué)習、數據庫和統計學(xué)三者相結合的產(chǎn)物。數據挖掘首先要確定挖掘的任務(wù)或目的,確定了挖掘任務(wù)后,就要決定使用什么樣的挖掘算法,選擇了算法后就可以實(shí)施數據挖掘操作,獲取有用的模式。
分類(lèi)作為數據挖掘中一項非常重要的任務(wù),目前在商業(yè)上應用最多(比如分析型CRM里面的客戶(hù)分類(lèi)模型,客戶(hù)流失模型,客戶(hù)盈利等等,其本質(zhì)屬于分類(lèi)問(wèn)題)。分類(lèi)的目的是學(xué)會(huì )一個(gè)分類(lèi)函數或分類(lèi)模型(也常常稱(chēng)作分類(lèi)器),該模型能把數據庫中的數據項映射到給定類(lèi)別中的某一個(gè),從而可以用于預測。目前,分類(lèi)方法的研究成果較多,判別方法的好壞可以從三個(gè)方面進(jìn)行:
1)預測準確度(對非樣本數據的判別準確度);
2)計算復雜度(方法實(shí)現時(shí)對時(shí)間和空間的復雜度);
3)模式的簡(jiǎn)潔度(在同樣效果情況下,希望決策樹(shù)小或規則少)。
近年來(lái),對數據挖掘中分類(lèi)算法的研究是該領(lǐng)域中一個(gè)熱點(diǎn),對不同分類(lèi)方法都有許多對比研究成果。沒(méi)有一個(gè)分類(lèi)方法在對所有數據集上進(jìn)行分類(lèi)學(xué)習均是最優(yōu)的。目前在數據挖掘軟件中運用的最早也是最多的分類(lèi)算法是神經(jīng)網(wǎng)絡(luò ),它具有對非線(xiàn)性數據快速建模的能力,通過(guò)對訓練集的反復學(xué)習來(lái)調節自身的網(wǎng)絡(luò )結構和連接權值,并對未知的數據進(jìn)行分類(lèi)和預測。但是由于神經(jīng)網(wǎng)絡(luò )是基于經(jīng)驗最小化原理,它有如下幾個(gè)固有的缺陷:
1)結構復雜(神經(jīng)元的結構,還有輸入層,隱含層,輸出層組合起來(lái)的復雜結構)
2)容易陷入局部極小
3) 容易出現過(guò)學(xué)習問(wèn)題,也就是訓練出來(lái)的模型推廣能力不強
為了克服傳統神經(jīng)網(wǎng)絡(luò )的以上缺點(diǎn),Vapnik提出了一種新的基于統計學(xué)習理論的機器學(xué)習算法―支持向量機,正式奠定了SVM的理論基礎,由于SVM扎實(shí)的理論基礎,其目前已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò )之后的的機器學(xué)習領(lǐng)域研究熱點(diǎn)之一。
二、支持向量機核心思想
支持向量機實(shí)現是通過(guò)某種事先選擇的非線(xiàn)性映射(核函數)將輸入向量映射到一個(gè)高維特征空間,在這個(gè)空間中構造最優(yōu)分類(lèi)超平面。我們使用使用SVM進(jìn)行數據集分類(lèi)工作的過(guò)程首先是通過(guò)預先選定的一些非線(xiàn)性映射將輸入空間映射到高維特征空間(如下圖)

使得在高維屬性空間中有可能對訓練數據實(shí)現超平面的分割,避免了在原輸入空間中進(jìn)行非線(xiàn)性曲面分割計算。SVM數據集形成的分類(lèi)函數具有這樣的性質(zhì):它是一組以支持向量為參數的非線(xiàn)性函數的線(xiàn)性組合,因此分類(lèi)函數的表達式僅和支持向量的數量有關(guān),而獨立于空間的維度。在處理高維輸入空間的分類(lèi)時(shí),這種方法尤其有效。其工作原理如下圖

三、支持向量機在數據挖掘中的應用
鑒于支持向量機扎實(shí)的理論基礎,并且和傳統的學(xué)習算法想比較(比如人工神經(jīng)網(wǎng)絡(luò )),SVM通過(guò)提高數據的維度把非線(xiàn)性分類(lèi)問(wèn)題轉換成線(xiàn)性分類(lèi)問(wèn)題,較好解決了傳統算法中訓練集誤差最小而測試集誤差仍較大的問(wèn)題,算法的效率和精度都比較高。所以近年來(lái)該方法成為構造數據挖掘分類(lèi)器的一項新型技術(shù),在分類(lèi)和回歸模型中得到了很好的應用。但由于支持向量機出現的時(shí)間在90年代中期,人們對支持向量機的應用主要集中在模式識別方面,對于將支持向量機應用于數據挖掘的研究剛處于起步階段。
目前,用SVM構造數據挖掘中的分類(lèi)器來(lái)處理海量數據主要面臨以下兩個(gè)困難:
(1)SVM算法對大規模訓練樣本難以實(shí)施
由于SVM是借助二次規劃來(lái)求解支持向量,而求解二次規劃將涉及m階矩陣的計算(m為樣本的個(gè)數),當m數目很大時(shí)該矩陣的存儲和計算將耗費大量的機器內存和運算時(shí)間。
針對以上問(wèn)題的主要改進(jìn)有有J.Platt的SMO算法、T.Joachims的SVM
(2)用SVM解決多分類(lèi)問(wèn)題存在困難
經(jīng)典的支持向量機算法只給出了二類(lèi)分類(lèi)的算法,而在數據挖掘的實(shí)際應用中,一般要解決多類(lèi)的分類(lèi)問(wèn)題??梢酝ㄟ^(guò)多個(gè)二類(lèi)支持向量機的組合來(lái)解決。主要有一對多組合模式、一對一組合模式和SVM決策樹(shù);再就是通過(guò)構造多個(gè)分類(lèi)器的組合來(lái)解決。主要原理是克服SVM固有的缺點(diǎn),結合其他算法的優(yōu)勢,解決多類(lèi)問(wèn)題的分類(lèi)精度。如:與粗集理論結合,形成一種優(yōu)勢互補的多類(lèi)問(wèn)題的組合分類(lèi)器
四、考慮一點(diǎn)商業(yè)智能中應用
支持向量機是基于統計學(xué)習理論的新一代學(xué)習機器,具有很多吸引人的特點(diǎn),它在函數表達能力、推廣能力和學(xué)習效率上都要優(yōu)于傳統的人工神經(jīng)網(wǎng)絡(luò ),在實(shí)際應用中也解決了許多問(wèn)題,但由于SVM的出現比較晚,還處于發(fā)展階段,尤其是其算法實(shí)現方面存在著(zhù)效率低下的問(wèn)題,這也是限制SVM很好地應用于數據挖掘中的一個(gè)瓶頸??梢钥紤]對傳統支持向量機進(jìn)行擴展,實(shí)現多分類(lèi)支持向量機??梢钥紤]運用于現在的客戶(hù)智能系統當中,現有客戶(hù)智能系統采用的分類(lèi)技術(shù)都是傳統的數據挖掘技術(shù):
比如神經(jīng)網(wǎng)絡(luò ),決策樹(shù),回歸分析等等。根據最后的圖,大家可以看到現在的分析型CRM的整個(gè)功能和技術(shù)架構,如果把這種新興的數據挖掘技術(shù)-支持向量機,運用于商業(yè)智能,相信是種不錯的嘗試。

聯(lián)系客服