
在我們學(xué)習機器算法的時(shí)候,可以將機器學(xué)習算法視為包含刀槍劍戟斧鉞鉤叉的一個(gè)軍械庫。你可以使用各種各樣的兵器,但你要明白這些兵器是需要在合適的時(shí)間合理的地點(diǎn)使用它們。作為類(lèi)比,你可以將“回歸算法”想象成能夠有效切割數據的劍,但無(wú)法處理高度復雜的數據。相反的是,“支持向量機(SVM)”就像一把鋒利的刀,它比較適用于較小的數據集,但在較小的數據集上面,它可以構建更加強大的模型。
相信在你學(xué)習機器學(xué)習算法解決分類(lèi)問(wèn)題的時(shí)候,肯定聽(tīng)說(shuō)過(guò)支持向量機(SVM),在過(guò)去的五十年中SVM在隨著(zhù)時(shí)間進(jìn)行演化,并且在分類(lèi)之外也得到了應用,比如回歸、離散值分析、排序。我相信你在不同的途徑中肯定也接觸過(guò)支持向量機,是不是覺(jué)得已經(jīng)對這個(gè)東西有些頭痛,認為很多人都會(huì ),但是自己好像怎么都不能明白過(guò)來(lái)它的原理,或者說(shuō)你已經(jīng)對自己有關(guān)支持向量機的知識已經(jīng)很有自信了,那么現在你來(lái)對地方了,這份技能測試就是專(zhuān)門(mén)測試你對于支持向量機的掌握程度已經(jīng)是否可以應用。這份測試已經(jīng)有超過(guò)550多人參加了,最后我會(huì )放出這些人的分數的分布情況,從而方便你對比一下自己的支持向量機的水平程度。
問(wèn)題背景:1-2
假設你使用的是一個(gè)線(xiàn)性SVM分類(lèi)器,是用來(lái)解決存在的2分類(lèi)問(wèn)題?,F在你已經(jīng)獲得了以下數據,其中一些點(diǎn)用紅色圈起來(lái)表示支持向量。

1)如果從數據中刪除以下任何一個(gè)紅點(diǎn)。決策邊界會(huì )改變嗎?
A)YES B)NO
2)[是或否]如果從數據中刪除非紅色圓圈點(diǎn),決策邊界會(huì )發(fā)生變化嗎?
A)真 B)假
3)有關(guān)于支持向量機的泛化誤差是什么意思?
A)超平面與支持向量的距離 B)支持向量機對未知數據的預測精度如何 C)支持向量機中的閾值誤差量
4)當C參數設置為無(wú)窮大時(shí),以下哪項成立?
A)如果存在最優(yōu)的超平面,那么則會(huì )是完全可以分類(lèi)數據 B)軟邊際分類(lèi)器將分離數據
C)以上都不是
5)硬邊緣是什么意思?
A)SVM允許分類(lèi)中的誤差很小 B)SVM允許分類(lèi)中的誤差很大 C)以上都不是
6)訓練支持向量機的最小時(shí)間復雜度是O(n2)。根據這一事實(shí),什么尺寸的數據集不是最適合SVM的?
A)大型數據集 B)小型數據集 C)中型數據集 D)大小無(wú)關(guān)緊要
7)支持向量機的有效性取決于:
A)內核的選擇 B)內核的參數 C)軟邊距的參數C D)以上所有
8)支持向量是最接近決策邊界的數據點(diǎn)。
A)是 B)否
9)支持向量機在以下什么情況中的效果最差:
A)數據是線(xiàn)性可分的 B)數據干凈并且可以使用 C)數據有噪音且包含重疊點(diǎn)
10)假設在支持向量機中使用高Gamma值并且使用RBF內核。這意味著(zhù)什么?
A)模型考慮甚至遠離超平面的點(diǎn)進(jìn)行建模 B)模型只考慮超平面附近的點(diǎn)進(jìn)行建模 C)模型不會(huì )受到點(diǎn)距離超平面的影響并進(jìn)行建模 D)沒(méi)有以上
11)支持向量機中的代價(jià)參數表示:
A)要進(jìn)行的交叉驗證的數量 B)要使用的內核 C)模型的分類(lèi)錯誤和簡(jiǎn)單性之間的權衡 D)以上都不是
12)
假設你正在基于數據X進(jìn)行構建支持向量機模型。數據X可能容易出錯,這意味著(zhù)你不應該過(guò)多地信任任何特定的數據點(diǎn)。假如現在你想建立一個(gè)支持向量機模型,它的二次核函數為2次多項式,它使用松弛變量C作為它的超參數之一?;诖?,請給出以下問(wèn)題的答案。
當你使用非常大的C值(C->無(wú)窮大)時(shí)會(huì )發(fā)生什么?
注意:對于小C,也可以正確地對所有數據點(diǎn)進(jìn)行分類(lèi)
A)對于給定的超參數C,我們仍然可以正確的對數據進(jìn)行分類(lèi) B)對于給定的超參數C,我們不能對數據進(jìn)行正確的分類(lèi) C)不好說(shuō) D)以上都不是
13)當使用非常小的C值(C~0)會(huì )發(fā)生什么?
A)將會(huì )發(fā)生分類(lèi)錯誤 B)數據將被正確的分類(lèi) C)不好說(shuō) D)以上都不是
14)如果我正在使用我的數據集的所有特征,并且我在訓練集上達到100%的準確率,但在驗證集上卻只達到約70%,我應該注意什么?
A)欠擬合 B)沒(méi)什么注意的,模型是非常完美的 C)過(guò)度擬合
15)以下哪項是支持向量機在現實(shí)世界中的實(shí)際應用?
A)文本和超文本分類(lèi) B)圖像分類(lèi) C)新聞文章的聚類(lèi) D)以上所有
問(wèn)題背景:16 - 18
假設你在訓練支持向量機后訓練了一個(gè)具有線(xiàn)性決策邊界的支持向量機,你正確的發(fā)現了你的支持向量機的模型還不合適。
16)下面選項中哪一個(gè)是你更能考慮進(jìn)行迭代支持向量機的?
A)增加你的數據點(diǎn) B)減少你的數據點(diǎn) C)嘗試計算更多的變量 D)嘗試減少變量
17)假設你在前一個(gè)問(wèn)題中給出了正確的答案。你認為實(shí)際上會(huì )發(fā)生什么?
1.我們正在降低偏差 2.我們正在降低方差 3.我們正在增加偏差 4.我們正在增加方差
A)1和2 B)2和3 C)1和4 D)2和4
18)在上面的問(wèn)題中,假設你想要更改其中一個(gè)(支持向量機)超參數,以便效果與之前的問(wèn)題相同,也就是模型不適合?
A)我們將增加參數C B)我們將減小參數C C)C中的變化不起作用 D)這些都不是
19)在支持向量機中使用高斯核函數之前,我們通常使用特征歸一化。那么什么是真正的特征歸一化?
我們進(jìn)行特征歸一化時(shí),以便新特征占主導地位
有時(shí),對于分類(lèi)變量,特征歸一化是不可行的
當我們在支持向量機中使用高斯核函數時(shí),特征歸一化總是有幫助的
A)1 B)1和2 C)1和3 D)2和3
問(wèn)題背景:20-22
假設你正在處理4分類(lèi)問(wèn)題,并且你希望在數據上訓練支持向量機模型,因為你正在使用One-vs-all方法?,F在回答以下問(wèn)題
20)在這種情況下我們需要訓練支持向量機模型多少次
A)1 B)2 C)3 D)4
21)假設你的數據中具有相同的類(lèi)分布?,F在,比如說(shuō)在一對一訓練中進(jìn)行1次訓練,支持向量機模型需要10秒鐘。那么端到端訓練一對一的方法需要多少秒?
A)20 B)40 C)60 D)80
22)假設你的問(wèn)題現在已經(jīng)發(fā)生了改變?,F在,數據只有2個(gè)類(lèi)。在這種情況下,你認為我們需要訓練支持向量機多少次?
A)1 B)2 C)3 D)4
問(wèn)題背景:23 - 24
假設你使用的支持向量機的線(xiàn)性核函數為2次多項式,現在認為你已將其應用于數據上并發(fā)現它完全符合數據,這意味著(zhù),訓練和測試精度為100%。
23)現在,假設你增加了這個(gè)內核的復雜度(或者說(shuō)多項式的階數)。你認為會(huì )發(fā)生什么?
A)增加復雜性將使數據過(guò)度擬合 B)增加復雜性將使數據不適應模型 C)由于你的模型已經(jīng)100%準確,因此不會(huì )發(fā)生任何事情 D)以上都不是
24)在上一個(gè)問(wèn)題中,在增加復雜性之后,你發(fā)現訓練精度仍然是100%。你認為這背后的原因是什么?
由于數據是固定的,我們擬合更多的多項式項或參數,因此算法開(kāi)始記憶數據中的所有內容
由于數據是固定的,SVM不需要在大的假設空間中進(jìn)行搜索
A)1 B)2 C)1和2 D)這些都不是
25)支持向量機中的kernel是什么?
kernel是將低維數據映射到高維空間
這是一個(gè)相似函數
A)1 B)2 C)1和2 D)這些都不是
1)正確答案:A
這三個(gè)例子的位置使得刪除它們中的任何一個(gè)都會(huì )在約束中引入松弛效果。因此決策邊界將完全改變。
2)正確答案:B
從數據另一方面來(lái)說(shuō),數據中的其余點(diǎn)不會(huì )對決策邊界產(chǎn)生太大影響。
3)正確答案:B
統計中的泛化誤差通常是樣本外誤差,它是用來(lái)衡量模型預測先見(jiàn)未知的數據值的準確性。
4)正確答案:A
在如此高水平的誤差分類(lèi)懲罰水平上,軟邊際將不會(huì )存在,因為沒(méi)有錯誤的余地。
5)正確答案:A
硬邊界意味著(zhù)SVM在分類(lèi)方面非常嚴格,并且試圖在訓練集中完美的完成分類(lèi),從而導致過(guò)度擬合。
6)正確答案:A
分類(lèi)邊界清晰的數據集與支持向量機的分類(lèi)效果最好
7)正確答案:D
支持向量機的有效性取決于你如何選擇上面提到的三個(gè)基本需求,從而最大化你的效率,減少誤差和過(guò)度擬合。
8)正確答案:A
它們是最接近超平面的點(diǎn),也是最難分類(lèi)的點(diǎn)。它們還對決策邊界的位置有直接影響。
9)正確答案:C
當數據具有噪聲和重疊點(diǎn)時(shí),如何在不分類(lèi)的情況下畫(huà)出清晰的超平面是一個(gè)很大的問(wèn)題。
10)正確答案:B
SVM調整中的gamma參數表示超平面附近的或遠離超平面的點(diǎn)的影響
對于較低的gamma值,模型將被過(guò)于約束并包括訓練數據集中的所有的點(diǎn),而不會(huì )真正的捕獲形狀。
對于更高的gamma值,模型將很好地捕獲數據集的形狀。
11)正確答案:C
代價(jià)參數決定了支持向量機被允許在多大程度上“彎曲”數據。對于低的代價(jià)參數,你的目標是一個(gè)光滑平穩的超平面,對于更高的代價(jià),你的目標是正確地分類(lèi)更多的點(diǎn)。它也簡(jiǎn)稱(chēng)為分類(lèi)錯誤的代價(jià)。
12)正確答案:A
對于較大的C值,錯誤分類(lèi)的點(diǎn)的代價(jià)非常高,因此決策邊界將盡可能完美地分離數據。
13)正確答案:A
該分類(lèi)器可以最大化的提高大多數點(diǎn)之間的邊距,同時(shí)會(huì )對少數點(diǎn)進(jìn)行錯誤的分類(lèi),因為代價(jià)是非常低的。
14)正確答案:C
如果我們非常容易就達到了100%的訓練準確度,那么我們就需要檢查來(lái)確認我們是否過(guò)度擬合了數據。
15)正確答案:D
支持向量機是高度通用的模型,可用于幾乎所有現實(shí)世界的問(wèn)題,從回歸到聚類(lèi)和手寫(xiě)識別。
16)正確答案:C
這里最好的選擇是為模型創(chuàng )建嘗試更多的變量。
17)正確答案:C
更好的模型將降低偏差并增加方差
18)正確答案:A
增加C參數在這里是正確的,因為它將確保模型的規范化
19)正確答案:B
表述一和二是正確的。
20)正確答案:D
對于一個(gè)4分類(lèi)問(wèn)題,如果使用one-vs-all方法,則必須至少訓練SVM 4次。
21)正確答案:B
需要10×4 = 40秒
22)正確答案:A
僅訓練一次SVM就可以得到合適的結果
23)正確答案:A
增加數據的復雜性會(huì )使算法過(guò)度擬合數據。
24)正確答案:C
兩個(gè)給定的陳述都是正確的。
25)正確答案:C
兩個(gè)給定的陳述都是正確的。
是不是已經(jīng)對完答案,已經(jīng)算出自己的分數了呢,以下是參與者得分的總體分布,看一下自己的水平在那個(gè)位置吧:

在這個(gè)圖表中,列表示的得分的人數,行表示獲得的分數,全部答對的人只有1位,相信看完自己的分數后,你應該對自己的水平有了一定的了解,也明白自己對于支持向量機的哪些知識還有些不足,這樣我們可以更好的去學(xué)習。
聯(lián)系客服