Regularization term簡述

因在做文本分類,最近重新研究了下Regularization term也就是規則項(正則項)的一些應用,與在實際工業相關的結合,搞了篇綜述,方便以后回顧一下。

機器學習中,認為有監督的機器學習簡單來說就是在規則化參數的同時,使得誤差最小化。其中規則化參數目的為了防止模型過擬合,而最小化誤差的目的在于讓模型擬合成我們需要的訓練數據。

然而在真實數據中,當參數更多時,模型復雜度增高,數據變容易出現過擬合的情況。過擬合很簡單的解釋就是訓練樣本的誤差很小,而測試樣本誤差較大。因此我們訓練模型的目的是保證模型“簡單”基礎上最小化誤差,使得模型具有良好的泛化能力,而使得模型變得簡單,就是通過規則化實現的。

以模型一般化為例:

其中為了衡量預測輸出與真實輸出之間的誤差,我們擬合函數要求loss function項最少,而后半部分為了防止過擬合,并且使得模型更為簡單。

前半部分loss function一般來說當為square loss時采用最小二乘法求解,當為Hinge loss時可看做svm模型,當為exp-loss時可以當做boosting模型,當為log-loss時可當做logistic模型。

規則項的作用可以簡單整理成兩大方面:

1,同上文敘述為了使得模型變得簡單,

2,約束模型的特征,將人的先驗知識融入的模型中,強行讓模型具有一系列功能,比如洗屬性,平滑,變量選擇一致性等等等。

規則化符合奧卡姆剃刀原理,也與loss function加入規則化的初衷相似。


規則項的選擇

規則化函數的選擇一般為模型復雜的單調遞增函數,模型越復雜,規則化的值就越大,比如規則化可以是模型參數向量的范數,一般對于參數“w”的約束不同,效果也不同。

采用模型參數向量的范數最直接反映了規則項的兩大作用:簡單,使其具有性質。

一般來說,規則項的選擇聚集在零范數,一范數,二范數等等,一般paper采用了很多以L1,L2范數作為基準的研究(也就是一范數,二范數),在工業上L1,L2的應用也十分普遍,在碩士研究期間參與到新的規則項L1/2的研究中,L1/2在生物信息相關數據同樣證明的自己獨特的效果。

在讀paper期間一直認為關于正則項的效果分類應該是在L0-L2期間,效果逐漸遞減,也就是逼近L0時效果應該最好,其中為作為就基礎的也就是L1,L2模型。后來一些E-Net,MCP,SCAD,Adaptive lasso等等方法都是基于L1,L2模型的改進,這些改進方法也一直很多學者在研究。


L1范數

先提L0范數,意思就是指向量中的非0的元素的個數,如果我們用L0范數規則化一個參數矩陣,我們是希望w的大部分元素都為0,也就是使其具有稀疏性。L1范數是指向量中的各個元素絕對值之和。

然后目前在大部分paper中,稀疏矩陣大量情況下都是通過L1規則化來實現。不采用L0的最主要原因就是L0規則化算子難以求得最優化求解,而L1范數是L0范數的最優凸近似,而且比L0更加容易求解。

L1方法的優點:
1)特征選擇:
? ?一般來說,輸入的大部分元素特征都是和最終輸出Y時沒有關系或者不提供任何信息的,在最小化目標函數的時候考慮輸入的一些額外特征(全部特征),雖然可以獲得更好的訓練誤差,但是在預測新樣本時,這些沒用的信息反而會被考慮,從而干擾了對正確輸出的預測,稀疏規則化會去掉這些沒有信息的特征,也就是把這些特征對應的權重置為0。

2)可解釋性:
? ?也就是對于特征提取方面,以之前的研究為例,從10000個基因數據中(特征),選出500個特征,即認為這500個特征對于某些基因問題的重要性遠大于其它基因特征。


L2范數:

L2范數是指向量個元素的平方和然后平方根,讓L2范數的規則項最小,可以使得w的每個元素都很小,很接近于0但是與L1范數不同,它不會讓它等于0而是接近與0,而越小的參數說明模型越簡單。

L2范數優點:

1)從理論
L2可以防止過擬合,提升模型的泛化能力

2)從算法角度


L1/2規則項

研究生期間一直做這個研究,顧名思義模型與L1、L2類同。至于為什么在L0-L1之間選擇L1/2作為代表,根據文獻理論, L1/2規則項具有無偏性、稀疏性及Oracle等優良理論性質。給出一種重賦權迭代算法,將求解L_(1/2)正則子轉化為一系列 L_1正則化子迭代求解。與經典的L0正則子相比,L1/2正則子更容易求解,而與當今流行的L1正則子相比,L1/2正則子產生更稀疏的解。

對于在生物方面的相關應用已經有多篇文章證明L1/2在實際中的應用可行,相比于之前的理論大大提升。應用的例子:

Application of L1/2 regularization logistic method in heart disease diagnosis. Bio-Medical Materials and Engineering, 24: 3447-3454, 2014.

L1/2的有點與L1類似,特別是在特征選擇能力方面更強。


在實際工業化文本應用中,現實數據并沒有實驗數據的準確性,在“BOW模型+分類”的前提下,多次試驗也無法證明變量選擇能力強的歸則化算子預測結果好,穩定性更強。更稀疏的解在“輸入數據并不完美”的情況下,顯示預測的準確率反而降低,數據清洗同樣是重要研究課題。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,702評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,143評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,553評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,620評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,416評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,940評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,024評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,170評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,709評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,597評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,784評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,291評論 5 357
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,029評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,407評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,663評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,403評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,746評論 2 370

推薦閱讀更多精彩內容