因在做文本分類,最近重新研究了下Regularization term也就是規則項(正則項)的一些應用,與在實際工業相關的結合,搞了篇綜述,方便以后回顧一下。
機器學習中,認為有監督的機器學習簡單來說就是在規則化參數的同時,使得誤差最小化。其中規則化參數目的為了防止模型過擬合,而最小化誤差的目的在于讓模型擬合成我們需要的訓練數據。
然而在真實數據中,當參數更多時,模型復雜度增高,數據變容易出現過擬合的情況。過擬合很簡單的解釋就是訓練樣本的誤差很小,而測試樣本誤差較大。因此我們訓練模型的目的是保證模型“簡單”基礎上最小化誤差,使得模型具有良好的泛化能力,而使得模型變得簡單,就是通過規則化實現的。
以模型一般化為例:
其中為了衡量預測輸出與真實輸出之間的誤差,我們擬合函數要求loss function項最少,而后半部分為了防止過擬合,并且使得模型更為簡單。
前半部分loss function一般來說當為square loss時采用最小二乘法求解,當為Hinge loss時可看做svm模型,當為exp-loss時可以當做boosting模型,當為log-loss時可當做logistic模型。
規則項的作用可以簡單整理成兩大方面:
1,同上文敘述為了使得模型變得簡單,
2,約束模型的特征,將人的先驗知識融入的模型中,強行讓模型具有一系列功能,比如洗屬性,平滑,變量選擇一致性等等等。
規則化符合奧卡姆剃刀原理,也與loss function加入規則化的初衷相似。
規則項的選擇
規則化函數的選擇一般為模型復雜的單調遞增函數,模型越復雜,規則化的值就越大,比如規則化可以是模型參數向量的范數,一般對于參數“w”的約束不同,效果也不同。
采用模型參數向量的范數最直接反映了規則項的兩大作用:簡單,使其具有性質。
一般來說,規則項的選擇聚集在零范數,一范數,二范數等等,一般paper采用了很多以L1,L2范數作為基準的研究(也就是一范數,二范數),在工業上L1,L2的應用也十分普遍,在碩士研究期間參與到新的規則項L1/2的研究中,L1/2在生物信息相關數據同樣證明的自己獨特的效果。
在讀paper期間一直認為關于正則項的效果分類應該是在L0-L2期間,效果逐漸遞減,也就是逼近L0時效果應該最好,其中為作為就基礎的也就是L1,L2模型。后來一些E-Net,MCP,SCAD,Adaptive lasso等等方法都是基于L1,L2模型的改進,這些改進方法也一直很多學者在研究。
L1范數
先提L0范數,意思就是指向量中的非0的元素的個數,如果我們用L0范數規則化一個參數矩陣,我們是希望w的大部分元素都為0,也就是使其具有稀疏性。L1范數是指向量中的各個元素絕對值之和。
然后目前在大部分paper中,稀疏矩陣大量情況下都是通過L1規則化來實現。不采用L0的最主要原因就是L0規則化算子難以求得最優化求解,而L1范數是L0范數的最優凸近似,而且比L0更加容易求解。
L1方法的優點:
1)特征選擇:
? ?一般來說,輸入的大部分元素特征都是和最終輸出Y時沒有關系或者不提供任何信息的,在最小化目標函數的時候考慮輸入的一些額外特征(全部特征),雖然可以獲得更好的訓練誤差,但是在預測新樣本時,這些沒用的信息反而會被考慮,從而干擾了對正確輸出的預測,稀疏規則化會去掉這些沒有信息的特征,也就是把這些特征對應的權重置為0。
2)可解釋性:
? ?也就是對于特征提取方面,以之前的研究為例,從10000個基因數據中(特征),選出500個特征,即認為這500個特征對于某些基因問題的重要性遠大于其它基因特征。
L2范數:
L2范數是指向量個元素的平方和然后平方根,讓L2范數的規則項最小,可以使得w的每個元素都很小,很接近于0但是與L1范數不同,它不會讓它等于0而是接近與0,而越小的參數說明模型越簡單。
L2范數優點:
1)從理論
L2可以防止過擬合,提升模型的泛化能力
2)從算法角度
L1/2規則項
研究生期間一直做這個研究,顧名思義模型與L1、L2類同。至于為什么在L0-L1之間選擇L1/2作為代表,根據文獻理論, L1/2規則項具有無偏性、稀疏性及Oracle等優良理論性質。給出一種重賦權迭代算法,將求解L_(1/2)正則子轉化為一系列 L_1正則化子迭代求解。與經典的L0正則子相比,L1/2正則子更容易求解,而與當今流行的L1正則子相比,L1/2正則子產生更稀疏的解。
對于在生物方面的相關應用已經有多篇文章證明L1/2在實際中的應用可行,相比于之前的理論大大提升。應用的例子:
Application of L1/2 regularization logistic method in heart disease diagnosis. Bio-Medical Materials and Engineering, 24: 3447-3454, 2014.
L1/2的有點與L1類似,特別是在特征選擇能力方面更強。
在實際工業化文本應用中,現實數據并沒有實驗數據的準確性,在“BOW模型+分類”的前提下,多次試驗也無法證明變量選擇能力強的歸則化算子預測結果好,穩定性更強。更稀疏的解在“輸入數據并不完美”的情況下,顯示預測的準確率反而降低,數據清洗同樣是重要研究課題。