什么是評分卡(信貸場景中)
以分數的形式來衡量風險幾率的一種手段,對未來一段時間內違約/逾期/失聯概率的預測
通常評分越高越安全;根據使用場景分為反欺詐評分卡、申請評分卡、行為評分卡、催收評分卡
為什么要開發評分卡?風險控制的一個環節,根據已有數據提供逾期概率指標參考
評分卡的特性
穩定性
預測能力
等價于逾期概率
評分卡開發的常用模型
邏輯回歸
決策樹
基于邏輯回歸的評分卡理論依據
一個事件發生的幾率(Odds),是指該事件發生的概率與該事件不發生概率的比值。若一個客戶違約概率為p,則其正常的概率為1-p,由此可得:
此時,客戶違約的概率p可以表示為:?
評分卡表達式為:?
其中A、B為常數。由于log函數在(0→+∞)單調遞增,所以當用戶違約幾率Odds越大時,Score評分越低。
通過給定?
(1)某特定Odds時的Score值S0;?
(2)該特定Odds值翻倍時Score增加值PD0;?
通過給定值S0與PD0帶入評分卡表達式,可求得A、B。?
通過以上分析,求該用戶評分Score的問題則轉化為求用戶違約對數幾率log(Odds)的問題。?
依照二元邏輯回歸構造預測函數
其中hθ(x)表示結果取1的概率。?
推倒可得該事件的對數幾率log(Odds)如下:?
可以發現:在邏輯斯蒂回歸模型中,輸出Y=1的對數幾率是輸入條件x的線性函數。?
回到信貸業務中?
目標:尋找最理想的參數估計θ使得模型預測的概率相對已有樣本最準確。?
方法:損失函數最小化求得θ?
邏輯回歸的損失函數為對數損失函數(具體可由極大似然估計推倒):?
變量篩選
單變量:歸一化,離散化,缺失值處理
多變量:降維,相關系數,卡方檢驗,信息增益。決策樹等。
這里講一種行業經常用的基于IV值進行篩選的方式。
首先引入概念和公式。
IV的全稱是Information Value,中文意思是信息價值,或者信息量。
求IV值得先求woe值,這里又引入woe的概念。
WOE的全稱是“Weight of Evidence”,即證據權重。首先,需要確定變量之間是否存在共線性,若存在高度相關性,只需保存最穩定、預測能力最高的那個。需要通過 VIF(variance inflation factor)也就是 方差膨脹因子進行檢驗。
變量分為連續變量和分類變量。在評分卡建模中,變量分箱(binning)是對連續變量離散化(discretization)的一種稱呼。要將logistic模型轉換為標準評分卡的形式,這一環節是必須完成的。信用評分卡開發中一般有常用的等距分段、等深分段、最優分段。
單因子分析,用來檢測各變量的預測強度,方法為WOE、IV;
分組一般原則
組間差異大
組內差異小
每組占比不低于5%
必須有好、壞兩種分類
例如按年齡分組,一般進行分箱,我們都喜歡按照少年、青年、中年、老年幾大類進行分組,但效果真的不一定好:
根據IV值可以看出,預測能力低,建議重新調整分箱。
先進行數據劃分,一般70%訓練集、30%測試集。訓練集用于訓練模型,測試集用于檢測訓練后的模型。
一般采用Logistic Regression建立模型,訓練模型。將建好的模型對待測樣本進行預測。
評分卡
odds為good用戶概率(p)與bad用戶概率(1-p)的比值。
分值分配
在實際的應用中,我們會計算出每個變量的各分箱對應的分值。新用戶產生時,對應到每個分箱的值,將這些值相加,最后加上初始基礎分,得到最終的結果。
如果用戶某個變量發生改變,由一個分箱變成另一個,只需將更新后所在分箱的值做替換,再重新相加即可得到新的總分。
我們都知道,假設模型結果為p,根據Logistic Regression計算公式有:
以上步驟都完成后,假如新產生一個用戶,我們只需將此用戶每個變量對應到各分箱中得到其對應的WOE值,再根據上面的公式計算出這個樣本在每個變量下的分數。最后將所有變量對應的分數相加,即為最終評分結果。
最后說一下,特征選擇方面,并不是維度越多越好。一個評分卡中,一般不超過15個維度。可根據Logistic Regression模型系數來確定每個變量的權重,保留權重高的變量。通過協方差計算的相關性大于0.7的變量一般只保留IV值最高的那一個。
參考資料:https://blog.csdn.net/sscc_learning/article/details/78591210
? ? ? ? ? ? ? ? ?https://blog.csdn.net/htbeker/article/details/79697557