論壇君
本文作者厚龍,曾參與了“每天一個(gè)數據分析師”采訪(fǎng)(詳情請點(diǎn)擊“閱讀原文”),現在互聯(lián)網(wǎng)金融風(fēng)控行業(yè)工作。他學(xué)以致用,將數據分析應用于交易欺詐,全文干貨滿(mǎn)滿(mǎn),對于數據分析愛(ài)好者是不可多得的一篇好文。
作者:厚龍
本文為CDA數據分析師約稿,如需轉載,請標明來(lái)源,否則視為侵權。
交易欺詐一般是指第三方欺詐,即所發(fā)生的交易非持卡人本人意愿的交易。通常是不法分子利用各種渠道竊取卡信息,進(jìn)行偽造卡作案。
一個(gè)從盜取信息到套現的整個(gè)流程
第三方交易欺詐的特點(diǎn):使用他卡;在最短時(shí)間內大量用卡;一定以獲利為目的;一般有區域集中性。
交易反欺詐模型的特點(diǎn)和難點(diǎn):海量數據計算、小概率事件、欺詐模式變化快、數據一般是割裂的。
交易識別方法,主要有風(fēng)控規則引擎、異常檢測、機器學(xué)習方法等。
以上方法建立的前提都是欺詐分子可以盜用客戶(hù)信息,也可以偽造客戶(hù)卡片,但是無(wú)法復制客戶(hù)的交易行為模式。因此客戶(hù)交易行為特征檔案是以上規則建立的基礎。
檔案要求:客戶(hù)投資行為和交易模式從各個(gè)維度刻畫(huà)客戶(hù)的行為;隨交易活動(dòng)實(shí)時(shí)更新;每個(gè)客戶(hù)需有唯一檔案。
——以上假設對于互聯(lián)網(wǎng)金融P2P投資而言,難度更大,原因:投資金額的不確定性、投資產(chǎn)品較少,客戶(hù)交易行為特征歸納難度大。
(1)風(fēng)控規則引擎
風(fēng)控組合規則一般是通過(guò)業(yè)務(wù)經(jīng)驗及對歷史風(fēng)險事件的總結形成的反欺詐規則,可以理解為多維組合分析,一般需根據業(yè)務(wù)成本、對風(fēng)險的容忍度設置關(guān)鍵變量的閾值。
(2)異??梢山灰讬z測
異常值模型是用于從大量數據構成的樣本群體中識別出與該群體有顯著(zhù)差異或者異常情況的樣本的過(guò)程。在反欺詐領(lǐng)域,欺詐交易和正常交易有顯著(zhù)差異,可以用異常模型進(jìn)行補充,一般是以距離為測量尺度,把樣本關(guān)鍵信息標準化為可測信息,進(jìn)行聚類(lèi),聚類(lèi)中樣本較小的簇確定是否為異常樣本,常用在探索性分析階段。異常樣本與統計學(xué)中的離群值概念相似。
(3)機器學(xué)習的方法
常用的分類(lèi)算法都可以應用在此類(lèi)場(chǎng)景中,比如:神經(jīng)網(wǎng)絡(luò )、貝葉斯方法、決策樹(shù)、支持向量機等。不同于一般分類(lèi)問(wèn)題的是:“欺詐”這種異常模式(類(lèi)別)的占比可能非常?。ú怀^(guò)5%,一般低于1%),為保證訓練和測試樣本中包含一定數量的此異常模式記錄,在準備數據時(shí)可能需要分層抽樣。
不同于信用評分模型(使用logistic回歸較多),在反欺詐領(lǐng)域,普遍使用神經(jīng)網(wǎng)絡(luò )模型技術(shù),該技術(shù)模擬人腦功能的基本特征,適合處理需同時(shí)考慮許多因素和條件的非線(xiàn)性問(wèn)題。神經(jīng)網(wǎng)絡(luò )模型具有識別率高、穩定性強且易于系統落地實(shí)施等優(yōu)點(diǎn)。
網(wǎng)絡(luò )一般包含三或更多層,其至少包含的有輸入層、隱含層及輸出層。
比如輸入信息可能為:輸入變量1交易金額、輸入變量2交易時(shí)間、輸入變量3產(chǎn)品類(lèi)型、輸入變量4用戶(hù)年齡、輸入變量4近一周交易特定類(lèi)型失敗交易失敗筆數、本次金額與歷史N次最大交易金額相比、是否歷史常用設備等。
輸出信息為交易評分??梢园l(fā)現神經(jīng)網(wǎng)絡(luò )中間是個(gè)黑箱,它的缺點(diǎn)為業(yè)務(wù)解釋困難,這要求特征工程提取有較高質(zhì)量。
建模流程
詳細說(shuō)明建模過(guò)程如下:
(1)數據準備方面
一般需考慮現有的數據倉庫或數據集市系統或交易系統、存在于其他外部的數據等。需充分考慮現有數據結構如何、是否具備該數據、當前數據信息量是否足夠、壞樣本是否足夠建模等等,總之,做好數據準備是影響問(wèn)題解決效率的重要前提。
舉例一般的欺詐交易模型所需數據可能包括:
交易信息:賬戶(hù)、金額、日期、時(shí)間、幣種、渠道、商戶(hù)、產(chǎn)品信息等;
欺詐記錄:是或者否;
其他信息:用戶(hù)IP、賬戶(hù)、設備等。
(2)特征工程方面
a.目標定義:將欺詐數據與交易數據相匹配,欺詐賬戶(hù)在欺詐窗口(第一次欺詐日到被發(fā)現之日)之間的所有交易即為欺詐性交易;
對非欺詐賬戶(hù),其所有交易即為非欺詐性交易。欺詐賬戶(hù)在第一次欺詐日之前的正常交易只為欺詐賬戶(hù)建立檔案,但這些正常交易本身并不作為非欺詐性交易進(jìn)入建模樣本。
b.變量設計:包括原始變量和衍生變量?jì)煞N。
原始變量:一般只用當前交易的信息,如交易金額、產(chǎn)品類(lèi)型、交易類(lèi)型、交易渠道、設備號、交易時(shí)間等;拿到原始變量,可先進(jìn)行缺失值和極端值的處理;再對這些基本交易信息進(jìn)行探索性分析;對產(chǎn)生的非連續性變量進(jìn)行相應的WOE(weight of evidence)處理或根據卡方檢驗處理;連續型變量進(jìn)行變量壓縮等。
衍生變量:通過(guò)對賬戶(hù)交易歷史的跟蹤,可以提煉賬戶(hù)的交易行為模式,這就是每個(gè)賬戶(hù)的檔案。如果當前的交易與該賬戶(hù)的歷史行為模式差別較大,則欺詐的可能性也較大。通俗的說(shuō),檔案是該賬號的消費行為的標準答案。要判斷當前的這筆是否交易欺詐,則需要將當前的交易信息與這個(gè)檔案(標準答案)進(jìn)行對比,相差越大則欺詐的概率越大。
以時(shí)間為基礎的衍生變量:
以事件為基礎的衍生變量:
c.數據處理注意點(diǎn):WOE代替(分類(lèi)型變量定量化);時(shí)間可劃分為7*24小時(shí)建立二維向量。通過(guò)這些復雜的變量,可以捕捉到每個(gè)賬戶(hù)的歷史行為模式,當前交易行為與歷史行為模式的差距,交易發(fā)生的速率和動(dòng)態(tài)等等。產(chǎn)生上述變量需要一定時(shí)間的交易歷史(6—12月),涉及的交易量龐大,每筆交易的數據量也不小,如何有效地保存,清理,加工這些數據并在此基礎上快速計算所需變量是一個(gè)技術(shù)關(guān)鍵。一般這步之后,有較多的變量,那接下的工作就是變量選擇。
d.變量選擇:由于建模需要構建出大量的變量,有些變量預測能力強,有些變量預測能力弱,不篩選會(huì )影響效率。此外,變量的子集很可能高度相關(guān),造成“過(guò)擬和”,模型的準確性和可靠性將受到損害。
注:過(guò)擬合是指在測試樣本效果佳但由于訓練過(guò)度推廣至新樣本效果反而不佳。
以神經(jīng)網(wǎng)絡(luò )模型為例,神經(jīng)網(wǎng)絡(luò )BP算法訓練過(guò)程中,不能自動(dòng)篩選變量(回歸可以,有向前、向后等)。為了找到一組預測能力強、變量之間的相關(guān)性弱的變量,不影響模型準確性,增加模型穩定性。變量篩選的方法主要如下:?jiǎn)巫兞款A測能力篩選:靈敏度分析、變量相關(guān)性檢查。一般而言,交易反欺詐模型需要輸入變量數遠多于信用評分模型。
(3)模型訓練
按以下步驟訓練神經(jīng)網(wǎng)絡(luò )模型,直至模型效果最佳。
a.對所有設計產(chǎn)生的自變量先進(jìn)行初步篩選,排除明顯無(wú)預測能力的變量,剩余變量在神經(jīng)網(wǎng)絡(luò )模型訓練過(guò)程中再進(jìn)行精選。
b.根據輸入變量的數目,設計合理的網(wǎng)絡(luò )結構和隱節點(diǎn)數(關(guān)鍵)。一般交易欺詐模型有上百個(gè)變量,一層隱含層,十幾個(gè)隱含節點(diǎn)。
c.根據設計好的網(wǎng)絡(luò )結構,選取合適的訓練參數和收斂條件,在上述第一步數據進(jìn)一步劃分后的純訓練數據上訓練模型,在測試數據上測試模型效果。
d.在有了初步訓練好的神經(jīng)網(wǎng)絡(luò )模型后,可用靈敏度分析等手段進(jìn)一步篩選變量。
e.對每個(gè)分段(segment),步驟3到步驟5都要重復多次,調整輸入變量,調整隱節點(diǎn)數,調整訓練參數,最后選出一個(gè)在測試數據上表現最好的模型作為該分段的最終模型。相對邏輯回歸來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò )的訓練更加于經(jīng)驗,如何設計網(wǎng)絡(luò )結構、各個(gè)參數大小等很重要。
(4)模型驗證及評估
交易驗證及精準率和召回率評估(見(jiàn)下文案例部分介紹)。
交易反欺詐策略:
策略的目標是最大限額地降低欺詐損失額,而預期欺詐損失額等于欺詐概率乘以交易額。由于反欺詐模型的評分反映了欺詐的概率,所以欺詐評分和交易額是反欺詐策略的主要依據,輔之以產(chǎn)品種類(lèi)、交易區域、交易方式等。
策略簡(jiǎn)介:對欺詐風(fēng)險較高的交易利用事后短信、電話(huà)聯(lián)系、信件聯(lián)系或電子郵件聯(lián)系的方式,與用戶(hù)在交易外進(jìn)行溝通,核對可疑交易,如果證實(shí)某賬號正在經(jīng)歷欺詐性交易(如用戶(hù)證實(shí)某可疑交易非其所為),則立刻拒絕用戶(hù)的所有后續交易并給重新建立賬戶(hù)等措施。這些反欺詐措施可以作為對實(shí)時(shí)交易授權決策的有效補充。當然,策略是要講究平衡的藝術(shù),核對交易是存在成本的,這就需要在成本和挽回損失間找到平衡點(diǎn)。而策略最終目標應該是:在電話(huà)核對和拒絕的交易量不超過(guò)資源負載的前提下最大限度發(fā)現和阻斷欺詐交易、最小限度地影響真實(shí)交易。
一個(gè)簡(jiǎn)單的欺詐監測案例
[ 案例及代碼來(lái)源:“Data Mining with R: Learning with Case Studies”]

應用思路
欺詐模型相關(guān)的案例較少,考慮商業(yè)數據的敏感性,采用案例數據來(lái)自“Data Mining with R: Learning with Case Studies”一書(shū),請大家自行百度,理解掌握本案例對有志于從事反欺詐、風(fēng)險數據分析相關(guān)領(lǐng)域的數據分析新手有很大的幫助。另外,R內置此數據大家可以完全可以拿來(lái)練手。
具體如下:某公司的銷(xiāo)售員所報告的交易數據。這些銷(xiāo)售員負責銷(xiāo)售該公司的產(chǎn)品并定期報告銷(xiāo)售情況。銷(xiāo)售員可以按照自己的策略和市場(chǎng)情況來(lái)自由設置銷(xiāo)售價(jià)格。月末,向公司報告銷(xiāo)售情況。數據挖掘應用的目的是根據公司過(guò)去發(fā)現的交易報告中的錯誤和欺詐企圖,幫助公司完成核實(shí)這些銷(xiāo)售報告的真實(shí)性的工作。提供一份欺詐率排名報告,這個(gè)欺詐率排名將允許公司把有限的檢驗資源分配給系統提示的更“可疑”的那些報告。
案例數據共401146行,每一行包括來(lái)自銷(xiāo)售員報告的信息。包括:
ID:說(shuō)明銷(xiāo)售員ID的一個(gè)因子變量;
Prod:說(shuō)明銷(xiāo)售產(chǎn)品ID號的一個(gè)因子變量;
Quant:報告該產(chǎn)品銷(xiāo)售的數量;
Val:報告銷(xiāo)售記錄的總價(jià)值;
Insp:有三個(gè)可能值的因子變量——ok表示公司檢查了該交易并認為該交易有效;
fraud表示發(fā)現該交易為欺詐;
unkn表示該交易未經(jīng)過(guò)公司審核。
(1)了解數據概況
a.顯示前幾行數據,如下:

b.初步了解數據特征發(fā)現,數據集中有大量的產(chǎn)品和銷(xiāo)售人員信息;同時(shí)數據缺失問(wèn)題存在。


c.觀(guān)察下有多少不同的產(chǎn)品和銷(xiāo)售人員:


d.繼續往下看:

下圖各銷(xiāo)售人員交易量波動(dòng)性很強且不同產(chǎn)品可能有較大差異,但我們還沒(méi)有考慮產(chǎn)品數量的影響。


銷(xiāo)售單價(jià)同樣存在較大變動(dòng)性。
說(shuō)明:現在我們要做一個(gè)假設,短時(shí)期內同一產(chǎn)品單位交易價(jià)格應該是相對穩定的。產(chǎn)品單價(jià)不應該出現巨大變化?!覀儌蓽y欺詐交易的業(yè)務(wù)邏輯前提,有這個(gè)前提,我們需要對每個(gè)產(chǎn)品的交易進(jìn)行分析,找出每個(gè)產(chǎn)品的可疑交易。同時(shí)我們需要考慮交易量少于20的產(chǎn)品(982種)。
e.下面看看最貴的和最便宜的單位價(jià)格對比。


注:我們上圖已經(jīng)對價(jià)格做了對數處理,這是常用的方法,當數據量級不在同一水平時(shí)。
f.類(lèi)似價(jià)格,我想看看哪些給公司帶來(lái)給多貢獻的銷(xiāo)售人員。

以上數據結果說(shuō)明:銷(xiāo)售金額前100(不到2%)的銷(xiāo)售人員銷(xiāo)售收入占比超過(guò)40%,而近三分之一的銷(xiāo)售人員只貢獻了約2%;而產(chǎn)品方面差異更為顯著(zhù),后90%的產(chǎn)品僅貢獻了少于10%的銷(xiāo)量。這個(gè)信息對生產(chǎn)十分有用,但并不意味著(zhù)公司應該停止該產(chǎn)品生產(chǎn),因為我們沒(méi)有生產(chǎn)成本的信息,這些產(chǎn)品有邊際利潤存在的可能,同時(shí)也不是本案例的目的。
g.下面進(jìn)行初步異常偵測,看大概異常比例。
假設:所有產(chǎn)品的單價(jià)接近正態(tài)分布,即同一產(chǎn)品價(jià)格大致相同,它們之間的變化可能是某些銷(xiāo)售人員為了達到他們商業(yè)目的而采取的策略。此次先采取箱線(xiàn)圖規則,定義:如果一個(gè)觀(guān)測值高于上須或低于下須,將其觀(guān)測值標記為異常高(低)。上下須定義Q3 1.5*四分位距、Q1-1.5*四分位數,IQR=Q3-Q1。Q3、Q1分別代表75%、25%處的總體水平。對單變量,在有少數離群值時(shí)此規則是有效的。經(jīng)計算約有7%的交易被認為是離群值(異常價(jià)格)的交易。

但是我們利用的數據可能本身是有噪聲的,有的數據是缺失的、有的數據尚未進(jìn)行檢查且占比高,這部分數據需要拿來(lái)檢驗異常是危險的,因此,我們需要對數據進(jìn)行處理,同時(shí)考慮更科學(xué)的偵測方法。
(2)處理缺失值和少量交易產(chǎn)品的問(wèn)題
缺失值處理過(guò)程略去(不代表不重要),但說(shuō)明主要采用的方法,對于銷(xiāo)售總價(jià)和數量都不存在的樣本進(jìn)行剔除;而對于僅缺失數量或銷(xiāo)售總價(jià)的樣本采用價(jià)格中位數進(jìn)行填補缺失值并重新計算另一變量的方式處理。
(3)處理少量交易的產(chǎn)品
思路:歸入其他產(chǎn)品類(lèi)。
具體為:嘗試觀(guān)測產(chǎn)品單價(jià)分布的相似性來(lái)推斷其中的一些關(guān)系。如果發(fā)現有類(lèi)似價(jià)格的產(chǎn)品考慮合并相應交易進(jìn)行分析,從而尋找異常值。前文講到交易樣本小于20的產(chǎn)品共982種。而比較分布的方法有數據可視化和統計檢驗,鑒于產(chǎn)品種類(lèi)多,采用統計檢驗方法,考察數據分布的統計特性(集中趨勢和離散程度)離散程度使用中位數、離散程度采用四分位差。采用這兩個(gè)指標的原因在于中位數和四分位差較于均值和標準差而言受異常值影響?。ù蠹铱梢运伎紴槭裁??),指標更穩健。
首先進(jìn)行可視化觀(guān)測假設:


數據顯示如下:許多少數產(chǎn)品的中位數和IQR和其他產(chǎn)品非常相似。然而也有幾種產(chǎn)品不僅交易少,而且價(jià)格分布也有較大差異。為了更有效的比較分布我們使用K-S檢驗分布是否來(lái)自相同分布,顯著(zhù)性水平定義為10%。
推斷統計應用,檢驗分布統計意義上的相似性。計算過(guò)程如下:

結果顯示,10%的顯著(zhù)性水平下,只有117個(gè)產(chǎn)品我們可以找到類(lèi)似產(chǎn)品。
至此數據預處理結束。
目的:運用數據科學(xué)方法為確定是否核實(shí)這些交易提供指導,對交易欺詐率進(jìn)行排名,僅處理檢查資源有限范圍內的欺詐交易(排名靠前的若干可疑交易)。解決建模目標的方法是前面所介紹的無(wú)監督、有監督、半監督方法,分別介紹其思路如下。在這之前先說(shuō)下數據現狀:數據Insp列有兩種類(lèi)型的觀(guān)測值,有標記和無(wú)標記,而有標記比例不足4%。
我們采用Holdout方法進(jìn)行抽樣,即將已有數據即分成兩部分,通常比例是70%、30%。一部分用于建模,一部分用于測試并選擇重復多次,選擇3次,保障結果是可靠的。。
但由于樣本特殊性給建模造成了一定困難,即數據不平衡問(wèn)題,不同類(lèi)型樣本之間的分布不均衡,即在標記個(gè)案上是不平衡的。正常抽樣策略可能導致一個(gè)測試集的正常報告與欺詐報告比例不同,這需要采用分層抽樣方法解決,即從不同類(lèi)型觀(guān)測袋子中隨機抽樣,以確保抽取的樣本遵守初始數據的分布。Holdout方法是類(lèi)似于交叉驗證和蒙特卡羅實(shí)驗的另一種實(shí)驗控制方法。
模型評級準則:決策精確度(Precision)與召回率(Recall)。


對于我們的案例而言,一個(gè)成功模型應得到一個(gè)交易排序,其中已知的欺詐交易在頂部,給定一個(gè)我們的資源允許檢驗的報告個(gè)數K,我們希望在排序的頂部k個(gè)位置中,或者只有欺詐交易的報告或者只有未檢驗的報告,同時(shí)我們希望所有已知的欺騙報告出現在這k個(gè)位置中。但考慮我們目標的特殊性,我們預測的是一個(gè)小概率的罕見(jiàn)事件,精確度與召回率是合適的評級指標。給定檢驗限制k,我們可以計算排序的最頂端k個(gè)位置的決策精確度與召回率。這個(gè)限定值k決定了模型哪些報告應該被檢驗。從監督學(xué)習分類(lèi)的角度去看,我們相當于預測頂端的k個(gè)位置預測為fraud類(lèi),其余為正常報告。精確度告訴我們頂端k個(gè)值多大比例事實(shí)上是標記為欺詐的報告。而召回率的值告訴我們k個(gè)位置所包含的測試集的欺詐行為比例。同時(shí)我們采用悲觀(guān)計算的方式,因為前k個(gè)樣本中未標記的報告很可能是fraud交易但我們計算精確度和召回是沒(méi)有考慮他們的。
同時(shí)如果算法沒(méi)有顯著(zhù)提升的情況下,精確度與召回率之間是需要權衡的。因為一般二者是負相關(guān)的,給定用于檢驗行為的資源約束條件,我們真正想要的是最大限度的利用資源。這意味著(zhù)我們可以用x小時(shí)檢查報告,并能夠在這x小時(shí)捕捉到所有欺詐行為,及時(shí)有一定的正常交易我們也不care,因為目的達到了,即我們需要的是使用現有資源達到100%的召回率。而精確度與召回率趨勢是模型性能的可視化表現。通過(guò)不同的工作點(diǎn)得到上面統計量的插值,得到該曲線(xiàn)。這些工作點(diǎn)由模型感興趣的類(lèi)別排序中斷點(diǎn)給出。在我們案例中,這將對于應用在模型所產(chǎn)生的離群值排序上的不同資源限制。對不同的限制水平(即檢驗更少或更多的樣本)進(jìn)行迭代,得到不同的決策精確度和召回率。--PR圖。
提升圖:x軸模型預測陽(yáng)性的概率;y軸是召回率比上陽(yáng)性預測率的商;同時(shí)還有累計召回度圖形,該模型曲線(xiàn)余越靠近上方,模型越好;此外,考慮模型排名前面可能包含未標記的樣本,我們要檢驗排序質(zhì)量的另外方法就是計算評估樣本單位價(jià)格和相應產(chǎn)品的標準價(jià)格聚類(lèi),衡量異常值排名質(zhì)量。
即我們通過(guò)PR圖和lift圖和標準價(jià)格距離衡量各建模效果。
(1)無(wú)監督方法
修正的箱線(xiàn)圖離群值排名:


局部離群因子系統(LOF):通過(guò)估計個(gè)案和局部領(lǐng)域的分離程度來(lái)得到個(gè)案離群值分數。在低密度區域的個(gè)案被視為離群值。個(gè)案的離群估計值是通過(guò)個(gè)案之間的距離來(lái)獲得的。
對比兩種方法的結果:


對于較低的檢驗限值,LOF是優(yōu)于Bprule的,同時(shí)對于10%的檢驗限值,LOF方法的標準距離明細高于BPrule方法。
基于聚類(lèi)的離群值排名:分層聚類(lèi)——聚類(lèi)樹(shù)思想,將這些樹(shù)在不同高度水平進(jìn)行切割時(shí)給出數據的不同聚類(lèi),這個(gè)方法的類(lèi)是不斷合并而成的。離群值分數來(lái)自于合并前類(lèi)的大小與合并后類(lèi)大小的差,如果合并后與合并前的明細,則離群值分高。建模結果如下:


(2)有監督方法
類(lèi)失衡問(wèn)題解決,采用欠抽樣的方法。如下:

解決類(lèi)失衡后,分別采用簡(jiǎn)單bayes和簡(jiǎn)單bayesSmote版本和orh算法解決進(jìn)行建模結果對比如下:可見(jiàn)兩種方法與聚類(lèi)方法相比均是令人失望的。

Adaboost方法,組合學(xué)習方法,預測值是通過(guò)對一組基本模型的預測值進(jìn)行某種形式的組合形成的,該方法應用一種自適應增強的方法來(lái)得到一組基本模型,是一種常見(jiàn)的提高基本性能的方法。它通過(guò)一種加權方式提高性能:增加被前一個(gè)模型誤分類(lèi)的個(gè)案的權重。經(jīng)過(guò)迭代結果是一組在不同訓練集數據上的基本模型。加權方式應對類(lèi)失衡問(wèn)題對學(xué)習算法很有意義,即使在初始迭代中有少數個(gè)案被模型忽略,它們的權重將會(huì )增加,模型被迫學(xué)習它們。理論上著(zhù)將導致得到的組合模型能更精確的預測這些稀有的個(gè)案。
Adaboost.M1是其中一種有效算法。建模效果如下:

PR曲線(xiàn)而言,對低水平的召回值,精確度明細低于ORh方法,但對本案,累計召回度,與ORh效果接近,說(shuō)明Adaboost在對類(lèi)失衡問(wèn)題下仍有較好的性能。
(3)半監督方法
同時(shí)使用檢驗的和沒(méi)有檢驗的報告來(lái)得到偵測欺詐報告的分類(lèi)模型。采用自我訓練模型,該方法先用給定標記的個(gè)案建立一個(gè)初始的分類(lèi)器,然后應用這個(gè)分類(lèi)器來(lái)預測給定訓練集中未標記的個(gè)案,將分類(lèi)器中有較高置信度的預測標簽所對應的個(gè)案和預測的標簽一起加入有標記的數據集中。繼續迭代新分類(lèi)器,直至收斂。三個(gè)重要參數,基本訓練模型、分類(lèi)置信度閾值、收斂準則。我們采用基本訓練模型為簡(jiǎn)單Adaboost.M1方法進(jìn)行自我訓練。
建模效果如下:

在以上嘗試的所有模型中,累計召回曲線(xiàn)最好的明顯哦是自我訓練AdaBoost.M1模型。15%-20%的檢驗限值比例可以確定80%以上的累計召回率。它明細好于其他模型,雖然就精確度而言并不出色,但本案重要的是在有限資源找出欺詐案例。因此該模型式最優(yōu)的對于我們的建模任務(wù)。
聯(lián)系客服