亚洲AV无码精品蜜桃_ SVM算法學(xué)習筆記1

SVM里面涉及的數學(xué)要求太高了.我一時(shí)半會(huì )也沒(méi)看懂.看了看一些概念性的東西.做的筆記貼上來(lái).

SVM算法學(xué)習筆記：

SVM算法是用于機器學(xué)習和機器訓練的一個(gè)有效算法。

Support Vector Machine

第一章:學(xué)習方法

1.1 監督學(xué)習

學(xué)到的概念有:

監督學(xué)習:當樣例是由輸入/輸出對給出時(shí),成為監督學(xué)習.

有關(guān)輸入輸出關(guān)系的樣例稱(chēng)為訓練數據.

輸入/輸出對通常反映了把輸入映射到輸出的一種函數關(guān)系.

當輸入到輸出存在內在函數時(shí),該函數稱(chēng)為目標函數.

由學(xué)習算法輸出的對目標函數的估計成為學(xué)習的解.

對于分類(lèi)問(wèn)題,該函數有時(shí)稱(chēng)為決策函數.

在學(xué)習區分賽車(chē)的例子中,輸出為簡(jiǎn)單的是/否,它就可看作是二元輸出值.對于識別蛋白質(zhì)類(lèi)型的問(wèn)題,輸出值為有限數量的類(lèi)別之一;對于化學(xué)反應的問(wèn)題輸出值為實(shí)數值的表示的反應化合物的濃度.

有二元輸出的問(wèn)題成為二類(lèi)問(wèn)題.有多個(gè)類(lèi)別的問(wèn)題成為多類(lèi)問(wèn)題.而實(shí)數值輸出的問(wèn)題稱(chēng)為回歸問(wèn)題.

非監督學(xué)習問(wèn)題:數據不包含輸出值,學(xué)習的任務(wù)是理解數據產(chǎn)生的過(guò)程.這種類(lèi)型的學(xué)習包括密度估計,分布類(lèi)型的學(xué)習和聚類(lèi)等.

本書(shū)著(zhù)重于在批量學(xué)習的設置下,根據有輸出值的數據來(lái)學(xué)習輸入/輸出映射,即應用監督學(xué)習方法到批量訓練數據上.

1.2 學(xué)習和泛化性

而當前情形下,學(xué)習的目標是輸出一個(gè)假設以正確分類(lèi)訓練數據,早期的學(xué)習算法目標也是尋找對數據的精確擬合,這樣尋找到的假設稱(chēng)為一致假設.

然而生成可驗證的一致性假設這一目標存在兩個(gè)問(wèn)題:

一個(gè)問(wèn)題是待學(xué)習的目標函數可能簡(jiǎn)單的表示,因此不能很容易地加以驗證,例如在DNA序列中定位基因.某些子序列是基因,某些不是.但沒(méi)有一種簡(jiǎn)單的方法來(lái)區分兩者.

第二個(gè)問(wèn)題是,通常訓練數據是有噪音的.因此不能保證存在一個(gè)目標函數能夠正確地映射訓練數據.很明顯信用檢測是其中一例,因為償債能力可以取決于其他一些系統無(wú)法獲知的因素.另一個(gè)例子是網(wǎng)頁(yè)分類(lèi)的問(wèn)題,這也是一個(gè)不精確的科學(xué)問(wèn)題.

還有一個(gè)更基為基本的問(wèn)題在于,及時(shí)能夠找到與訓練數據一致的假設,他也可能無(wú)法對未見(jiàn)數據進(jìn)行分類(lèi).一個(gè)假設正確分類(lèi)訓練集之外數據的能力稱(chēng)為泛化性,這正是要優(yōu)化的屬性.

如果一個(gè)假設能給出正確的輸出,它就滿(mǎn)足泛化性準則.

1.3 提高泛化性

過(guò)擬合:

許多經(jīng)典的機器學(xué)習算法能夠表示任意函數,并且對于困難的訓練數據集會(huì )得到一個(gè)類(lèi)似機械式學(xué)習器的假設.所謂機械式學(xué)習器是指能夠正確分類(lèi)訓練數據,但對于所有未見(jiàn)數據會(huì )做出根本無(wú)關(guān)聯(lián)性的預測.例如,決策樹(shù)有可能過(guò)度增長(cháng)直至針對每個(gè)訓練樣例有一葉子節點(diǎn).為了得到一致假設變得過(guò)度復雜成為過(guò)擬合.

控制此問(wèn)題的一種方法是限制假設的規模,例如對于決策樹(shù)可進(jìn)行修剪操作.奧卡姆(Ockham)剃刀是該類(lèi)方法的準則之一,它建議如無(wú)必要,不必增加復雜性,或者說(shuō)更精細的復雜性必須有利于顯著(zhù)提高訓練數據的分類(lèi)正確性.

1.5 用于學(xué)習的支持向量機

支持向量機(SVM,Support Vector Machine)是在高維特征空間使用線(xiàn)性函數假設空間的學(xué)習系統,它由一個(gè)來(lái)自最優(yōu)化理論的學(xué)習算法訓練,該算法實(shí)現了一個(gè)由統計學(xué)習理論到處的學(xué)習偏置.此學(xué)習策略由Vapnik和他的合作者提出,是一個(gè)準則性的并且強有力的方法.在它提出來(lái)的若干年來(lái),在范圍廣大的應用中,SVM的性能勝過(guò)其他大多數的學(xué)習系統.

第二章線(xiàn)性學(xué)習器

對監督學(xué)習來(lái)說(shuō)，學(xué)習器會(huì )輸入一個(gè)帶有標記（或者輸出值）的樣例（或輸入）的訓練集。

樣例通常是以屬性向量的形式給出，因此輸入空間是R^n的子集。一旦給定輸入向量，就可以為問(wèn)題選擇一定數目的假設函數集。其中，線(xiàn)性函數最容易理解并且應用最簡(jiǎn)單。

學(xué)習方法意味著(zhù)一定要從數據中學(xué)習到這些參數。

在從樣例中研究監督學(xué)習問(wèn)題前，首先要介紹一些再本書(shū)中都要用到的符號，比如輸入、輸出、訓練集，等等。

20世紀60年代就已經(jīng)提出了幾個(gè)簡(jiǎn)單的迭代算法來(lái)優(yōu)化代價(jià)函數，這些代價(jià)函數使用超平面把點(diǎn)分為兩類(lèi)。下面將回顧一些最著(zhù)名的算法。感知機是有趣的，這不僅是因為歷史原因，還因為在如此簡(jiǎn)單的一個(gè)系統內可以找到研究SVM理論所需要的絕大多數核心概念。注意有一些算法，比如最小二乘，既可以做回歸也可用來(lái)作分類(lèi)。

2.1.1 Rosenblatt感知機

它是一個(gè)“在線(xiàn)”和“錯誤驅動(dòng)“的程序，從一個(gè)初始權重向量w0(通常w0=0,一個(gè)全零的向量)開(kāi)始，每次當一個(gè)訓練點(diǎn)被現在的權重誤分的時(shí)候都調整權重。算法見(jiàn)下，這個(gè)算法直接更新權重向量和偏置。

如果存在一個(gè)超平面能夠正確分類(lèi)訓練數據，并且這個(gè)程序保證收斂，這種情況稱(chēng)為線(xiàn)性可分。如果這樣的超平面不存在，則數據稱(chēng)為不可分。

2.2 線(xiàn)性回歸

線(xiàn)性回歸的問(wèn)題就是求線(xiàn)性函數：f(x) = <w*x> +b使其能夠最好地擬合一個(gè)給定標記為的訓練點(diǎn)集Ｓ。從幾何角度講是尋找一個(gè)立定給定點(diǎn)的超平面。

這個(gè)問(wèn)題最著(zhù)名的解是最小二乘法，它能在線(xiàn)性目標被高斯噪音干擾的情況下獲得最優(yōu)結果。

http://tag.csdn.net/tag/svm/1.html

http://net.pku.edu.cn/~wjm/dm/SVM.ppt

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久