SVM入門(mén)（八）松弛變量

現在我們已經(jīng)把一個(gè)本來(lái)線(xiàn)性不可分的文本分類(lèi)問(wèn)題，通過(guò)映射到高維空間而變成了線(xiàn)性可分的。就像下圖這樣：

圓形和方形的點(diǎn)各有成千上萬(wàn)個(gè)（畢竟，這就是我們訓練集中文檔的數量嘛，當然很大了）?，F在想象我們有另一個(gè)訓練集，只比原先這個(gè)訓練集多了一篇文章，映射到高維空間以后（當然，也使用了相同的核函數），也就多了一個(gè)樣本點(diǎn)，但是這個(gè)樣本的位置是這樣的：

就是圖中黃色那個(gè)點(diǎn)，它是方形的，因而它是負類(lèi)的一個(gè)樣本，這單獨的一個(gè)樣本，使得原本線(xiàn)性可分的問(wèn)題變成了線(xiàn)性不可分的。這樣類(lèi)似的問(wèn)題（僅有少數點(diǎn)線(xiàn)性不可分）叫做“近似線(xiàn)性可分”的問(wèn)題。

以我們人類(lèi)的常識來(lái)判斷，說(shuō)有一萬(wàn)個(gè)點(diǎn)都符合某種規律（因而線(xiàn)性可分），有一個(gè)點(diǎn)不符合，那這一個(gè)點(diǎn)是否就代表了分類(lèi)規則中我們沒(méi)有考慮到的方面呢（因而規則應該為它而做出修改）？

其實(shí)我們會(huì )覺(jué)得，更有可能的是，這個(gè)樣本點(diǎn)壓根就是錯誤，是噪聲，是提供訓練集的同學(xué)人工分類(lèi)時(shí)一打瞌睡錯放進(jìn)去的。所以我們會(huì )簡(jiǎn)單的忽略這個(gè)樣本點(diǎn)，仍然使用原來(lái)的分類(lèi)器，其效果絲毫不受影響。

但這種對噪聲的容錯性是人的思維帶來(lái)的，我們的程序可沒(méi)有。由于我們原本的優(yōu)化問(wèn)題的表達式中，確實(shí)要考慮所有的樣本點(diǎn)（不能忽略某一個(gè)，因為程序它怎么知道該忽略哪一個(gè)呢？），在此基礎上尋找正負類(lèi)之間的最大幾何間隔，而幾何間隔本身代表的是距離，是非負的，像上面這種有噪聲的情況會(huì )使得整個(gè)問(wèn)題無(wú)解。這種解法其實(shí)也叫做“硬間隔”分類(lèi)法，因為他硬性的要求所有樣本點(diǎn)都滿(mǎn)足和分類(lèi)平面間的距離必須大于某個(gè)值。

因此由上面的例子中也可以看出，硬間隔的分類(lèi)法其結果容易受少數點(diǎn)的控制，這是很危險的（盡管有句話(huà)說(shuō)真理總是掌握在少數人手中，但那不過(guò)是那一小撮人聊以自慰的詞句罷了，咱還是得民主）。

但解決方法也很明顯，就是仿照人的思路，允許一些點(diǎn)到分類(lèi)平面的距離不滿(mǎn)足原先的要求。由于不同的訓練集各點(diǎn)的間距尺度不太一樣，因此用間隔（而不是幾何間隔）來(lái)衡量有利于我們表達形式的簡(jiǎn)潔。我們原先對樣本點(diǎn)的要求是：

意思是說(shuō)離分類(lèi)面最近的樣本點(diǎn)函數間隔也要比1大。如果要引入容錯性，就給1這個(gè)硬性的閾值加一個(gè)松弛變量，即允許

因為松弛變量是非負的，因此最終的結果是要求間隔可以比1小。但是當某些點(diǎn)出現這種間隔比1小的情況時(shí)（這些點(diǎn)也叫離群點(diǎn)），意味著(zhù)我們放棄了對這些點(diǎn)的精確分類(lèi)，而這對我們的分類(lèi)器來(lái)說(shuō)是種損失。但是放棄這些點(diǎn)也帶來(lái)了好處，那就是使分類(lèi)面不必向這些點(diǎn)的方向移動(dòng)，因而可以得到更大的幾何間隔（在低維空間看來(lái)，分類(lèi)邊界也更平滑）。顯然我們必須權衡這種損失和好處。好處很明顯，我們得到的分類(lèi)間隔越大，好處就越多?；仡櫸覀冊嫉挠查g隔分類(lèi)對應的優(yōu)化問(wèn)題：

||w||²就是我們的目標函數（當然系數可有可無(wú)），希望它越小越好，因而損失就必然是一個(gè)能使之變大的量（能使它變小就不叫損失了，我們本來(lái)就希望目標函數值越小越好）。那如何來(lái)衡量損失，有兩種常用的方式，有人喜歡用

而有人喜歡用

其中l都是樣本的數目。兩種方法沒(méi)有大的區別。如果選擇了第一種，得到的方法的就叫做二階軟間隔分類(lèi)器，第二種就叫做一階軟間隔分類(lèi)器。把損失加入到目標函數里的時(shí)候，就需要一個(gè)懲罰因子（cost，也就是libSVM的諸多參數中的C），原來(lái)的優(yōu)化問(wèn)題就變成了下面這樣：

這個(gè)式子有這么幾點(diǎn)要注意：

一是并非所有的樣本點(diǎn)都有一個(gè)松弛變量與其對應。實(shí)際上只有“離群點(diǎn)”才有，或者也可以這么看，所有沒(méi)離群的點(diǎn)松弛變量都等于0（對負類(lèi)來(lái)說(shuō)，離群點(diǎn)就是在前面圖中，跑到H2右側的那些負樣本點(diǎn)，對正類(lèi)來(lái)說(shuō)，就是跑到H1左側的那些正樣本點(diǎn)）。

二是松弛變量的值實(shí)際上標示出了對應的點(diǎn)到底離群有多遠，值越大，點(diǎn)就越遠。

三是懲罰因子C決定了你有多重視離群點(diǎn)帶來(lái)的損失，顯然當所有離群點(diǎn)的松弛變量的和一定時(shí)，你定的C越大，對目標函數的損失也越大，此時(shí)就暗示著(zhù)你非常不愿意放棄這些離群點(diǎn)，最極端的情況是你把C定為無(wú)限大，這樣只要稍有一個(gè)點(diǎn)離群，目標函數的值馬上變成無(wú)限大，馬上讓問(wèn)題變成無(wú)解，這就退化成了硬間隔問(wèn)題。

四是懲罰因子C不是一個(gè)變量，整個(gè)優(yōu)化問(wèn)題在解的時(shí)候，C是一個(gè)你必須事先指定的值，指定這個(gè)值以后，解一下，得到一個(gè)分類(lèi)器，然后用測試數據看看結果怎么樣，如果不夠好，換一個(gè)C的值，再解一次優(yōu)化問(wèn)題，得到另一個(gè)分類(lèi)器，再看看效果，如此就是一個(gè)參數尋優(yōu)的過(guò)程，但這和優(yōu)化問(wèn)題本身決不是一回事，優(yōu)化問(wèn)題在解的過(guò)程中，C一直是定值，要記住。

五是盡管加了松弛變量這么一說(shuō)，但這個(gè)優(yōu)化問(wèn)題仍然是一個(gè)優(yōu)化問(wèn)題（汗，這不廢話(huà)么），解它的過(guò)程比起原始的硬間隔問(wèn)題來(lái)說(shuō)，沒(méi)有任何更加特殊的地方。

從大的方面說(shuō)優(yōu)化問(wèn)題解的過(guò)程，就是先試著(zhù)確定一下w，也就是確定了前面圖中的三條直線(xiàn)，這時(shí)看看間隔有多大，又有多少點(diǎn)離群，把目標函數的值算一算，再換一組三條直線(xiàn)（你可以看到，分類(lèi)的直線(xiàn)位置如果移動(dòng)了，有些原來(lái)離群的點(diǎn)會(huì )變得不再離群，而有的本來(lái)不離群的點(diǎn)會(huì )變成離群點(diǎn)），再把目標函數的值算一算，如此往復（迭代），直到最終找到目標函數最小時(shí)的w。

啰嗦了這么多，讀者一定可以馬上自己總結出來(lái)，松弛變量也就是個(gè)解決線(xiàn)性不可分問(wèn)題的方法罷了，但是回想一下，核函數的引入不也是為了解決線(xiàn)性不可分的問(wèn)題么？為什么要為了一個(gè)問(wèn)題使用兩種方法呢？

其實(shí)兩者還有微妙的不同。一般的過(guò)程應該是這樣，還以文本分類(lèi)為例。在原始的低維空間中，樣本相當的不可分，無(wú)論你怎么找分類(lèi)平面，總會(huì )有大量的離群點(diǎn)，此時(shí)用核函數向高維空間映射一下，雖然結果仍然是不可分的，但比原始空間里的要更加接近線(xiàn)性可分的狀態(tài)（就是達到了近似線(xiàn)性可分的狀態(tài)），此時(shí)再用松弛變量處理那些少數“冥頑不化”的離群點(diǎn)，就簡(jiǎn)單有效得多啦。

本節中的（式1）也確實(shí)是支持向量機最最常用的形式。至此一個(gè)比較完整的支持向量機框架就有了，簡(jiǎn)單說(shuō)來(lái)，支持向量機就是使用了核函數的軟間隔線(xiàn)性分類(lèi)法。

下一節會(huì )說(shuō)說(shuō)松弛變量剩下的一點(diǎn)點(diǎn)東西，順便搞個(gè)讀者調查，看看大家還想侃侃SVM的哪些方面。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

SVM入門(mén)（八）松弛變量