上回說(shuō)到對于文本分類(lèi)這樣的不適定問(wèn)題(有一個(gè)以上解的問(wèn)題稱(chēng)為不適定問(wèn)題),需要有一個(gè)指標來(lái)衡量解決方案(即我們通過(guò)訓練建立的分類(lèi)模型)的好壞,而分類(lèi)間隔是一個(gè)比較好的指標。
在進(jìn)行文本分類(lèi)的時(shí)候,我們可以讓計算機這樣來(lái)看待我們提供給它的訓練樣本,每一個(gè)樣本由一個(gè)向量(就是那些文本特征所組成的向量)和一個(gè)標記(標示出這個(gè)樣本屬于哪個(gè)類(lèi)別)組成。如下:
Di=(xi,yi)
xi就是文本向量(維數很高),yi就是分類(lèi)標記。
在二元的線(xiàn)性分類(lèi)中,這個(gè)表示分類(lèi)的標記只有兩個(gè)值,1和-1(用來(lái)表示屬于還是不屬于這個(gè)類(lèi))。有了這種表示法,我們就可以定義一個(gè)樣本點(diǎn)到某個(gè)超平面的間隔:
δi=yi(wxi+b)
這個(gè)公式乍一看沒(méi)什么神秘的,也說(shuō)不出什么道理,只是個(gè)定義而已,但我們做做變換,就能看出一些有意思的東西。
首先注意到如果某個(gè)樣本屬于該類(lèi)別的話(huà),那么wxi+b>0(記得么?這是因為我們所選的g(x)=wx+b就通過(guò)大于0還是小于0來(lái)判斷分類(lèi)),而yi也大于0;若不屬于該類(lèi)別的話(huà),那么wxi+b<0,而yi也小于0,這意味著(zhù)yi(wxi+b)總是大于0的,而且它的值就等于|wxi+b|?。ㄒ簿褪莬g(xi)|)
現在把w和b進(jìn)行一下歸一化,即用w/||w||和b/||w||分別代替原來(lái)的w和b,那么間隔就可以寫(xiě)成
這個(gè)公式是不是看上去有點(diǎn)眼熟?沒(méi)錯,這不就是解析幾何中點(diǎn)xi到直線(xiàn)g(x)=0的距離公式嘛?。ㄍ茝V一下,是到超平面g(x)=0的距離, g(x)=0就是上節中提到的分類(lèi)超平面)
小Tips:||w||是什么符號?||w||叫做向量w的范數,范數是對向量長(cháng)度的一種度量。我們常說(shuō)的向量長(cháng)度其實(shí)指的是它的2-范數,范數最一般的表示形式為p-范數,可以寫(xiě)成如下表達式
向量w=(w1, w2, w3,…… wn)
它的p-范數為
看看把p換成2的時(shí)候,不就是傳統的向量長(cháng)度么?當我們不指明p的時(shí)候,就像||w||這樣使用時(shí),就意味著(zhù)我們不關(guān)心p的值,用幾范數都可以;或者上文已經(jīng)提到了p的值,為了敘述方便不再重復指明。
當用歸一化的w和b代替原值之后的間隔有一個(gè)專(zhuān)門(mén)的名稱(chēng),叫做幾何間隔,幾何間隔所表示的正是點(diǎn)到超平面的歐氏距離,我們下面就簡(jiǎn)稱(chēng)幾何間隔為“距離”。以上是單個(gè)點(diǎn)到某個(gè)超平面的距離(就是間隔,后面不再區別這兩個(gè)詞)定義,同樣可以定義一個(gè)點(diǎn)的集合(就是一組樣本)到某個(gè)超平面的距離為此集合中離超平面最近的點(diǎn)的距離。下面這張圖更加直觀(guān)的展示出了幾何間隔的現實(shí)含義:
H是分類(lèi)面,而H1和H2是平行于H,且過(guò)離H最近的兩類(lèi)樣本的直線(xiàn),H1與H,H2與H之間的距離就是幾何間隔。
之所以如此關(guān)心間隔這個(gè)東西,是因為間隔與樣本的誤分次數間存在關(guān)系:
其中的δ是樣本集合到分類(lèi)面的間隔,R是空間中一個(gè)能完全包含樣本數據的球的半徑(也就是說(shuō)代表樣本的分布有多么廣)。先不必追究誤分次數的具體定義和推導過(guò)程,只要記得這個(gè)誤分次數一定程度上代表分類(lèi)器的誤差。而從上式可以看出,誤分次數的上界由間隔決定?。ó斎?,是樣本已知的時(shí)候)
至此我們就明白為何要選擇間隔來(lái)作為評價(jià)一個(gè)解優(yōu)劣的指標了,原來(lái)間隔越大的解,它的誤差上界越小。因此最大化間隔成了我們訓練階段的目標,而且,與二把刀作者所寫(xiě)的不同,最大化分類(lèi)間隔并不是SVM的專(zhuān)利,而是早在線(xiàn)性分類(lèi)時(shí)期就已有的思想。
但是看過(guò)一些關(guān)于SVM的論文的人一定記得什么優(yōu)化的目標是要最小化||w||這樣的說(shuō)法,這是怎么回事呢?回頭再看看
這個(gè)公式,這里的|g(x)|代表樣本集到超平面g(x)=0距離最近的點(diǎn)的值,因此是一個(gè)定值,注意到間隔與||w||是成反比的,因此最大化間隔與最小化||w||完全是一回事。而我們常用的方法并不是固定||w||的大小而尋求最大間隔,而是固定間隔(例如固定為1),尋找最小的||w||。
現在有了一個(gè)線(xiàn)性分類(lèi)函數,也有了判斷解優(yōu)劣的標準(有了優(yōu)化的目標),接下來(lái)自然關(guān)心如何求解,且聽(tīng)下回分解。






