版權聲明:轉載時(shí)請以超鏈接形式標明文章原始出處和作者信息及本聲明
http://jeffdai.blogbus.com/logs/30443348.html
支持向量機是一種監督式學(xué)習的方法,它廣泛的應用于統計分類(lèi)以及回歸分析中. 支持向量機屬于一般化線(xiàn)性分類(lèi)器.他們也可以認為是提克洛夫規則化(Tikhonov Regularization)方法的一個(gè)特例.這族分類(lèi)器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗誤差與最大化幾何邊緣區.因此支持向量機也被稱(chēng)為最大邊緣區分類(lèi)器.
目錄[隱藏]
|
支持向量機將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開(kāi)數據的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類(lèi)器的總誤差越小。一個(gè)極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類(lèi)器進(jìn)行了比較。
我們通常希望分類(lèi)的過(guò)程是一個(gè)機器學(xué)習的過(guò)程。這些數據點(diǎn)并不需要是



我們考慮以下形式的樣本點(diǎn)

其中ci為1或−1 --用以表示數據點(diǎn)屬于哪個(gè)類(lèi).


根據幾何知識,我們知道

由于我們要求最大間隔,因此我們需要知道支持向量以及(與最佳超平面)平行的并且離支持向量最近的超平面.我們可以看到這些平行超平面可以由方程族


來(lái)表示.
如果這些訓練數據是線(xiàn)性可分的,那就可以找到這樣兩個(gè)超平面,在它們之間沒(méi)有任何樣本點(diǎn)并且這兩個(gè)超平面之間的距離也最大.通過(guò)幾何不難得到這兩個(gè)超平面之間的距離是 1/2|w|,因此我們需要最小化 |w|. 同時(shí)為了使得樣本數據點(diǎn)都在超平面的間隔區以外,我們需要保證對于所有的 i 滿(mǎn)足其中的一個(gè)條件


這兩個(gè)式子可以寫(xiě)作:

現在尋找最佳超平面這個(gè)問(wèn)題就變成了在(1)這個(gè)約束條件下最小化|w|.這是一個(gè)二次規劃QP(quadratic programming)最優(yōu)化中的問(wèn)題.
更清楚的,它可以表示如下


1/2 這個(gè)因子是為了數學(xué)上表達的方便加上的.
把原型的分類(lèi)規則寫(xiě)作對偶型,可以看到分類(lèi)器其實(shí)是一個(gè)關(guān)于支持向量(即那些在間隔區邊緣的訓練樣本點(diǎn))的函數。
支持向量機的對偶型如下:

1995年, Corinna Cortes 與Vapnik 提出了一種改進(jìn)的最大間隔區方法,這種方法可以處理標記錯誤的樣本. 如果可區分正負例的超平面不存在,則“軟邊界”將選擇一個(gè)超平面盡可能清晰地區分樣本,同時(shí)使其與分界最清晰的樣本的距離最大化。這一成果使術(shù)語(yǔ)“支持向量機”(或“SVM”)得到推廣。這種方法引入了松馳參數ξi以衡量對數據xi的誤分類(lèi)度。

隨后,將目標函數與一個(gè)針對非0ξi的懲罰函數相加,在增大間距和縮小錯誤懲罰兩大目標之間進(jìn)行權衡優(yōu)化。如果懲罰函數是一個(gè)線(xiàn)性函數,則等式(3)變形為

聯(lián)系客服