SVM里面涉及的數學(xué)要求太高了.我一時(shí)半會(huì )也沒(méi)看懂.看了看一些概念性的東西.做的筆記貼上來(lái).
SVM算法學(xué)習筆記:
SVM算法是用于機器學(xué)習和機器訓練的一個(gè)有效算法。
Support Vector Machine
第一章:學(xué)習方法
1.1 監督學(xué)習
學(xué)到的概念有:
監督學(xué)習:當樣例是由輸入/輸出對給出時(shí),成為監督學(xué)習.
有關(guān)輸入輸出關(guān)系的樣例稱(chēng)為訓練數據.
輸入/輸出對通常反映了把輸入映射到輸出的一種函數關(guān)系.
當輸入到輸出存在內在函數時(shí),該函數稱(chēng)為目標函數.
由學(xué)習算法輸出的對目標函數的估計成為學(xué)習的解.
對于分類(lèi)問(wèn)題,該函數有時(shí)稱(chēng)為決策函數.
在學(xué)習區分賽車(chē)的例子中,輸出為簡(jiǎn)單的是/否,它就可看作是二元輸出值.對于識別蛋白質(zhì)類(lèi)型的問(wèn)題,輸出值為有限數量的類(lèi)別之一;對于化學(xué)反應的問(wèn)題輸出值為實(shí)數值的表示的反應化合物的濃度.
有二元輸出的問(wèn)題成為 二類(lèi)問(wèn)題.有多個(gè)類(lèi)別的問(wèn)題成為多類(lèi)問(wèn)題.而實(shí)數值輸出的問(wèn)題稱(chēng)為回歸問(wèn)題.
非監督學(xué)習問(wèn)題:數據不包含輸出值,學(xué)習的任務(wù)是理解數據產(chǎn)生的過(guò)程.這種類(lèi)型的學(xué)習包括密度估計,分布類(lèi)型的學(xué)習和聚類(lèi)等.
本書(shū)著(zhù)重于在批量學(xué)習的設置下,根據有輸出值的數據來(lái)學(xué)習輸入/輸出映射,即應用監督學(xué)習方法到批量訓練數據上.
1.2 學(xué)習和泛化性
而當前情形下,學(xué)習的目標是輸出一個(gè)假設以正確分類(lèi)訓練數據,早期的學(xué)習算法目標也是尋找對數據的精確擬合,這樣尋找到的假設稱(chēng)為一致假設.
然而生成 可驗證的一致性假設這一目標存在兩個(gè)問(wèn)題:
一個(gè)問(wèn)題是待學(xué)習的目標函數可能簡(jiǎn)單的表示,因此不能很容易地加以驗證,例如在DNA序列中定位基因.某些子序列是基因,某些不是.但沒(méi)有一種簡(jiǎn)單的方法來(lái)區分兩者.
第二個(gè)問(wèn)題是,通常訓練數據是有噪音的.因此不能保證存在一個(gè)目標函數能夠正確地映射訓練數據.很明顯信用檢測是其中一例,因為償債能力可以取決于其他一些系統無(wú)法獲知的因素.另一個(gè)例子是網(wǎng)頁(yè)分類(lèi)的問(wèn)題,這也是一個(gè)不精確的科學(xué)問(wèn)題.
還有一個(gè)更基為基本的問(wèn)題在于,及時(shí)能夠找到與訓練數據一致的假設,他也可能無(wú)法對未見(jiàn)數據進(jìn)行分類(lèi).一個(gè)假設正確分類(lèi)訓練集之外數據的能力稱(chēng)為泛化性,這正是要優(yōu)化的屬性.
如果一個(gè)假設能給出正確的輸出,它就滿(mǎn)足泛化性準則.
1.3 提高泛化性
過(guò)擬合:
許多經(jīng)典的機器學(xué)習算法能夠表示任意函數,并且對于困難的訓練數據集會(huì )得到一個(gè)類(lèi)似機械式學(xué)習器的假設.所謂機械式學(xué)習器是指能夠正確分類(lèi)訓練數據,但對于所有未見(jiàn)數據會(huì )做出根本無(wú)關(guān)聯(lián)性的預測.例如,決策樹(shù)有可能過(guò)度增長(cháng)直至針對每個(gè)訓練樣例有一葉子節點(diǎn).為了得到一致假設變得過(guò)度復雜成為 過(guò)擬合.
控制此問(wèn)題的一種方法是限制假設的規模,例如對于決策樹(shù)可進(jìn)行修剪操作.奧卡姆(Ockham)剃刀是該類(lèi)方法的準則之一,它建議如無(wú)必要,不必增加復雜性,或者說(shuō)更精細的復雜性必須有利于顯著(zhù)提高訓練數據的分類(lèi)正確性.
1.5 用于學(xué)習的支持向量機
支持向量機(SVM,Support Vector Machine)是在高維特征空間使用線(xiàn)性函數假設空間的學(xué)習系統,它由一個(gè)來(lái)自最優(yōu)化理論的學(xué)習算法訓練,該算法實(shí)現了一個(gè)由統計學(xué)習理論到處的學(xué)習偏置.此學(xué)習策略由Vapnik和他的合作者提出,是一個(gè)準則性的 并且強有力的方法.在它提出來(lái)的若干年來(lái),在范圍廣大的應用中,SVM的性能勝過(guò)其他大多數的學(xué)習系統.
第二章 線(xiàn)性學(xué)習器
對監督學(xué)習來(lái)說(shuō),學(xué)習器會(huì )輸入一個(gè)帶有標記(或者輸出值)的樣例(或輸入)的訓練集。
樣例通常是以屬性向量的形式給出,因此輸入空間是R^n的子集。一旦給定輸入向量,就可以為問(wèn)題選擇一定數目的假設函數集。其中,線(xiàn)性函數最容易理解并且應用最簡(jiǎn)單。
學(xué)習方法意味著(zhù)一定要從數據中學(xué)習到這些參數。
在從樣例中研究監督學(xué)習問(wèn)題前,首先要介紹一些再本書(shū)中都要用到的符號,比如輸入、輸出、訓練集,等等。
20世紀60年代就已經(jīng)提出了幾個(gè)簡(jiǎn)單的迭代算法來(lái)優(yōu)化代價(jià)函數,這些代價(jià)函數使用超平面把點(diǎn)分為兩類(lèi)。下面將回顧一些最著(zhù)名的算法。感知機是有趣的,這不僅是因為歷史原因,還因為在如此簡(jiǎn)單的一個(gè)系統內可以找到研究SVM理論所需要的絕大多數核心概念。注意有一些算法,比如最小二乘,既可以做回歸也可用來(lái)作分類(lèi)。
它是一個(gè)“在線(xiàn)”和“錯誤驅動(dòng)“的程序,從一個(gè)初始權重向量w0(通常w0=0,一個(gè)全零的向量)開(kāi)始,每次當一個(gè)訓練點(diǎn)被現在的權重誤分的時(shí)候都調整權重。算法見(jiàn)下,這個(gè)算法直接更新權重向量和偏置。
如果存在一個(gè)超平面能夠正確分類(lèi)訓練數據,并且這個(gè)程序保證收斂,這種情況稱(chēng)為線(xiàn)性可分。如果這樣的超平面不存在,則數據稱(chēng)為不可分。
2.2 線(xiàn)性回歸
線(xiàn)性回歸的問(wèn)題就是求線(xiàn)性函數:f(x) = <w*x> +b使其能夠最好地擬合一個(gè)給定標記為的訓練點(diǎn)集S。從幾何角度講是尋找一個(gè)立定給定點(diǎn)的超平面。
這個(gè)問(wèn)題最著(zhù)名的解是最小二乘法,它能在線(xiàn)性目標被高斯噪音干擾的情況下獲得最優(yōu)結果。
http://tag.csdn.net/tag/svm/1.html
http://net.pku.edu.cn/~wjm/dm/SVM.ppt
聯(lián)系客服