??在互聯網和銀行的信貸領域主要有兩大類的風險需要進行防控,分別是信用風險和欺詐風險,其中:
??信用風險:指的是借款人的還款能力以及還款意愿所帶來的風險,通常受借款人的經濟能力、負債情況和生活狀態變化的影響,一般不是由借款人自發產生的風險,大多數收外部或其他因素影響。
??欺詐風險:指的是借款人出于不正當目的進行借款,且通常沒有主觀上的還款意愿,多數借款人是抱著騙貸的目的進行借款,且往往呈現出團伙騙貸的特征,因此對于金融機構而言,這類欺詐類風險帶來的危害往往十分巨大。
??在互聯網金融信貸風控領域,通過搭建模型利用自身的歷史數據和外部的相關數據,挖掘出反欺詐規則或者欺詐評分是非常重要且十分有效的手段。與傳統人工信審相比,基于機器學習的信貸風控模型可以高效且準確地處理信貸申請,降低信審壓力地同時,將風險控制在一個合適地范圍內。下面以信貸風控中最常見的反欺詐場景為例,簡單地介紹一下工業界中通用的信貸反欺詐建模流程,如下圖所示。
信貸反欺詐領域一個完整的建模流程大體如上圖所示,其中標黃的是關鍵且核心的內容。下面我們對流程中的每個模塊進行簡單的介紹。
1.問題抽象
??將欺詐檢測問題抽象成數學問題(回歸或者分類)或者機器學習任務(監督學習、無監督學習或者是半監督學習),比如:
(1)欺詐分類,可以抽象成二分類或者多分類問題。
(2)新型欺詐識別,可以抽象成異常檢測問題。
(3)欺詐團伙識別,可以抽象成聚類問題。
問題抽象完成后,我們就可以按照我們的目標,采集數據,建立模型了。
2.欺詐定義
??信貸領域的欺詐在實際場景中的表現方式有很多,如果對信貸欺詐的類型進行劃分,比較常見的有欺詐主體、利益得失等維度。其中,從欺詐主體方面分析,可分為第一方欺詐、第二方欺詐、第三方欺詐,其特點具體如下:
(1)第一方欺詐:欺詐主體為申請者本人,欺詐主體知情且分享收益;
(2)第二方欺詐:欺詐主體為企業內部員工;
(3)第三方欺詐:欺詐主體為盜用別人身份信息欺詐的人群,非客戶非企業。
??在訓練一個反欺詐模型之前,我們得先定義好什么是欺詐,不然后續的工作都沒有任何意義,欺詐定義在不同的領域和不同的公司由不同的欺詐定義標準。在信貸欺詐策略與模型開發的風控工作中,針對欺詐目標的定義,主要表現為采用內部數據、外部數據,或者聯合多維數據來定義欺詐目標。這里列舉幾個互金領域比較有共識的幾種欺詐定義方法:
(1)貸前申請信息:身份要素核驗不一致、活體識別不通過、通訊錄信息異常,單位及居住信息異常,網絡及設備信息異常等;
(2)三方多頭借貸:三方多頭標簽、多頭欺詐名單、多頭信用黑名單等;
(3)外部行為信息:運營商通訊信息、銀聯交易信息、電商網購信息等;
(4)貸后逾期信息:首逾超過T天、首逾不還款、首期失聯、回訪失蹤等。
在實際的應用中,不同的場景下會將上述的幾種方法進行組合,得到對應的欺詐定義。
3.數據準備
??數據準備主要是對反欺詐建模中使用到的數據進行歸集和整合,以為后期的建模提供數據準備,數據準備分為兩個部分:數據獲取和樣本選取。
3.1數據獲取
??數據獲取一般考慮數據從數據來源上說,一般分為內部數據和外部數據,其中內部數據值得是用戶在當前平臺上所有基本信息和行為信息的集合,外部數據指的是當前平臺出去風控和反欺詐的目的,從外部數據服務平臺采購的數據。兩者大體范圍如下:
??內部數據:,用戶基礎數據,用戶行為數據、埋點數據、賬號數據、設備指紋、授信記錄、還款記錄、黑灰名單等。
??外部數據:第三方風險分、三分黑會名單庫數據、運營商數據、身份學歷信息、社交關系、App操作行為、外部征信數據等。
??數據來源也不是越多越好,出于法規和監管的需要以及平臺自身運營成本的控制和后期效果的追蹤和回溯,對數據來源可以從以下幾個方面進行把控:
??合法性:隨著國家監管的日益完善,以及用戶信息保護的逐步加強,平臺獲取用戶數據的合法性日益重要,甚至能影響一個平臺的生存。未經用戶授權的數據不可采集,用戶隱私數據需要加密,盡量不收集業務需求之外的數據等。
??性價比:性價比也是數據準備時候必須要考慮的因素之一,優先準備性價比高的數據也是保證一個平臺能夠盈利的關鍵,性價比低的數據,無疑會提高客單價,有時候會導致得不償失。
??穩定性:數據穩定性指數據隨著客群變化,逐漸變化。如果因為客群的變換會導致某些數據發生急劇變化,勢必會導致模型穩定性差。
??可回溯性:是指這些數據能否正確回溯用戶的歷史行為,可回溯性差的數據不利于后期模型上線階段的效果評估和復盤。
3.2樣本選取
??反欺詐建模過程中用到的數據樣本包括建模樣本和時間外樣本。其中,建模樣本用于構建反欺詐模型,時間外樣本用于驗證模型以確保模型在對來自不同時間窗口的客戶群體進行測試時的魯棒性。樣本選取通常需要滿足以下原則:
??代表性:首先不同的反欺詐場景針對的客群是不一樣的,比如白領貸面向白領,小微貸面向小微企業主,因此不能使用不同客群的樣本作為建模樣本。
??充分性:樣本的數量必須滿足一定要求,否則無法滿足統計的顯著性,一般如評分卡建模,要求正負樣本數都不少于1000個,隨著樣本的增加,模型的效果會顯著提升。
??時效性:在樣本數量充足的前提下,要求樣本的觀測期與實際的應用期越近越好。比如十年前的樣本用來做今天的反欺詐模型,可能意義并不大。
4.特征提取
??數據準備好之后,如何講這些數據轉換成特征進入到下一個階段的建模中,是一個非常重要的環節。特征提取通過對原始數據進行轉換和變形,從原始數據中提取和創造出對預測欺詐有幫助的變量,而這些變量被統稱為特征。由于模型將直接使用特征,因此特征提取在很大程度上決定模型的預測能力。在反欺詐建模過程中常用的特征提取的方式有如下常用的幾種:
??時間切片:同一個指標在不同的時間切片下的表現,以某個用戶在當前平臺的申請次數為例,通過時間切片可以提取出一些不同時間切片的特征:過去24小時申請次數,過去三天申請次數,過去一個月申請次數,等等。
??特征交叉:特征交叉是只對兩個可能有關聯的基礎特征進行交叉,從而得到交叉后的特征:比如是否同時申請貸款產品A和貸款產品B,工作地在一線城市且收入低于平均收入,等等。
??網絡特征:網絡特征值得是利用基礎數據構建復雜關系網絡,然后基于復雜關系網絡進行特征提取,如一度聯系人,二度聯系人,以及是否數據同一個社團,當前所屬社團規模等等。
??特征提取主要是在當前基礎數據的基礎上,提取出可能對后續模型建模有用的新特征,至于提取出來的特征是否有效,建模階段可以進行特征評估,然后篩選出有用的特征用于后續的建模。
5.模型搭建
??在明確業務需求和特征提取好之后,就可以進入模型搭建的階段了,模型搭建的階段主要包括:特征篩選,模型建立,模型評估和模型調優。
5.1特征篩選
??在特征提取中曾提到過,為了盡可能地利用數據的價值,需要基于現有的數據進行特征提取。但是在這些提取的特征中,并不是所有的特征都對欺詐建模有幫助,因此需要對這些特征進行篩選。為了達到這個目的,業內常用的特征挑選方法有WOE(Weight Of Evidence)和IV(Information Value)。具體如下:
??WOE: WOE針對的是離散變量,也就是變量的取值是枚舉類型。WOE將原始特征值轉換為與欺詐相關的比例值,這個值越遠離0表示變量相應的取值對欺詐預測的幫助越大。而針對連續變量,首先需要通過分箱將其轉換為離散變量,然后再計算相應的WOE。
??IV:IV值是定義在WOE的基礎上,用于衡量該特征對被預測值的預測能力。理論上來講,這個值越大說明相應特征的預測能力也就越強。但在建模的實踐中,我們并不總是使用IV值大的特征來搭建模型,因為這會使模型變得不太穩定。比如模型IV值過高的變量,可以直接用于反欺詐策略,以達到高效和快速調整的目的。
5.2模型評估
??由于欺詐模型大多數情況下是分類問題,因此可以使用的評估指標有AUC、查準查全以及K-S值。AUC和K-S值是信用評分模型常用的評估指標,它們是偏向于模型在整個數據集上面的表現,強調模型的整體效果和穩定性。但實際在反欺詐的場景,我們并不頂追求模型在整體數據集合上的表現,因為欺詐是個拒絕屬性特別強的結果,代價往往較高,因此一般可以使用查準或者查全來評估模型。
6.上線及監控
??在模型效果達到逾期之后,我們就將模型發布到生產環境,以承接線上的反欺詐服務。模型部署之前,需要進行的變量的和核對工作,其核心在于通過統計手段構造模型報告,繼而對模型的效果進行評估。模型報告的構建方法如下:
(1)將測試樣本的集合按照預估評分進行升序排列。
(2)將樣本等頻分割,并分布到若干各箱中。
(3)計算每一個分箱中的相應評估指標。常用的評估指標有:KS值,正負樣本數,負樣本占比,捕獲率等等。
??以上就是整體的反欺詐建模的全部環節,細節的東西都沒有講太清楚,后續如果有空,會針對部分環節進行詳細介紹,OK!
信貸風控建模實戰系列
信貸風控建模實戰(一)——建模流程總覽
信貸風控建模實戰(二)——策略生成及規則挖掘
信貸風控建模實戰(三)——評分卡建模之邏輯回歸
信貸風控建模實戰(四)——評分卡建模之XGBoost
信貸風控建模實戰(五)——特征工程
信貸風控建模實戰(六)——異常檢測
信貸風控建模實戰(七)——群組劃分or聚類
信貸風控建模實戰(八)——風控基礎概念