深度學(xué)習(xí)第八篇---正則化

什么叫過(guò)擬合和欠擬合?

我們?cè)谀P陀?xùn)練的時(shí)候,通過(guò)把數(shù)據(jù)劃分成訓(xùn)練集和測(cè)試集,然后選擇Loss函數(shù)來(lái)評(píng)估訓(xùn)練效果怎么樣,其loss函數(shù)在訓(xùn)練集上的值叫訓(xùn)練誤差,在測(cè)試集上叫泛化誤差,當(dāng)訓(xùn)練誤差比較大的時(shí)候,可能說(shuō)明模型參數(shù)量比較小,難以擬合所有數(shù)據(jù)特征,稱(chēng)為欠擬合。反之當(dāng)訓(xùn)練誤差比較小,但是泛化誤差比較大的時(shí)候,說(shuō)明模型雖然在訓(xùn)練集上有不錯(cuò)的表現(xiàn),但是在未見(jiàn)過(guò)的測(cè)試集上表現(xiàn)較差的這種現(xiàn)象稱(chēng)過(guò)擬合。

那什么是正則化呢,花書(shū)上說(shuō)“凡是能夠減少泛化誤差的方法”都叫正則化。因此正則化是防止過(guò)擬合和提高模型泛化性能的一類(lèi)方法的統(tǒng)稱(chēng)。
本文記錄一下,經(jīng)典的正則化方法有以下幾種:
● Dropout - 在全連接層中隨機(jī)丟棄部分神經(jīng)元節(jié)點(diǎn),產(chǎn)生一個(gè)簡(jiǎn)化了的網(wǎng)絡(luò)結(jié)構(gòu)
● L1/L2正則化 - 在原始的損失函數(shù)中增加L1/L2的懲罰項(xiàng),從而限制產(chǎn)生較大的權(quán)重w
● Batch normalization - 控制隱層的輸出在一個(gè)穩(wěn)定的范圍內(nèi)
● 數(shù)據(jù)增強(qiáng) - 通過(guò)增加數(shù)據(jù)集多樣性的方式避免過(guò)擬合
● Early stopping - 在達(dá)到模型過(guò)擬合的階段前停止訓(xùn)練模型

1 Dropout (隨機(jī)失效)

Dropout通過(guò)隨機(jī)地將一些神經(jīng)元的輸出置零,迫使模型不依賴(lài)于特定的神經(jīng)元,從而增強(qiáng)了模型的泛化能力。這樣,每個(gè)神經(jīng)元都將學(xué)習(xí)到與其他神經(jīng)元合作的特征,而不是過(guò)度依賴(lài)于某些特定的神經(jīng)元。
在PyTorch中,可以通過(guò)在網(wǎng)絡(luò)層中添加torch.nn.Dropout層來(lái)實(shí)現(xiàn)Dropout。例如:

import torch
import torch.nn as nn

if __name__ == '__main__':
   # 創(chuàng)建一個(gè)4行5列的矩陣
   matrix = torch.randn(4, 5)

   # 定義Dropout層,設(shè)置p參數(shù)為0.2,表示將20%的元素設(shè)置為0
   dropout = nn.Dropout(p=0.2)

   # 應(yīng)用Dropout層
   matrix_dropout = dropout(matrix)

   print("原始矩陣:")
   print(matrix)
   print()
   print("應(yīng)用Dropout后的矩陣:")
   print(matrix_dropout)

輸出:

原始矩陣:
tensor([[ 0.1143, -1.0621,  0.7031, -0.7662, -1.1596],
       [-0.8340, -0.8210, -0.8747,  1.3130, -2.2559],
       [-0.6311,  0.4332,  2.6923,  0.0424,  1.1330],
       [ 1.7028,  0.3254,  0.1760,  1.9037, -0.2492]])

應(yīng)用Dropout后的矩陣:
tensor([[ 0.1429, -1.3276,  0.8788, -0.9577, -1.4495],
       [-1.0425, -1.0262, -1.0934,  1.6413, -2.8199],
       [-0.0000,  0.5415,  3.3653,  0.0000,  0.0000],
       [ 0.0000,  0.4068,  0.2201,  0.0000, -0.3115]])

數(shù)一數(shù)剛剛好4個(gè)0。在舉一個(gè)例子,在實(shí)際網(wǎng)絡(luò)中應(yīng)用也比較簡(jiǎn)單。

import torch
import torch.nn as nn

# 定義一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)
class Net(nn.Module):
   def __init__(self):
       super(Net, self).__init__()
       self.fc1 = nn.Linear(100, 64)
       self.dropout = nn.Dropout(0.5)
       self.fc2 = nn.Linear(64, 10)

   def forward(self, x):
       x = self.fc1(x)
       x = self.dropout(x)
       x = torch.relu(x)
       x = self.fc2(x)
       return x

# 創(chuàng)建網(wǎng)絡(luò)實(shí)例
net = Net()

# 在訓(xùn)練過(guò)程中使用dropout
net.train()

# 在測(cè)試過(guò)程中禁用dropout
net.eval()

在訓(xùn)練過(guò)程中,通過(guò)調(diào)用net.train()啟用Dropout層,而在測(cè)試過(guò)程中,通過(guò)調(diào)用net.eval()禁用Dropout層。這是因?yàn)樵谟?xùn)練過(guò)程中,Dropout層會(huì)隨機(jī)丟棄神經(jīng)元的輸出,而在測(cè)試過(guò)程中,我們希望保留所有神經(jīng)元的輸出來(lái)獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。

2 L1/L2正則化

Loss函數(shù):


2.1 為什么L1,L2正則可以解決過(guò)擬合問(wèn)題?

答:模型的復(fù)雜度和參數(shù)的數(shù)量和參數(shù)的范圍決定,擬合過(guò)程中通常都傾向于讓權(quán)值盡可能小,最后構(gòu)造一個(gè)所有參數(shù)都比較小的模型。因?yàn)橐话阏J(rèn)為參數(shù)值小的模型比較簡(jiǎn)單,能適應(yīng)不同的數(shù)據(jù)集,也在一定程度上避免了過(guò)擬合現(xiàn)象。可以設(shè)想一下對(duì)于一個(gè)線性回歸方程,若參數(shù)很大,那么只要數(shù)據(jù)偏移一點(diǎn)點(diǎn),就會(huì)對(duì)結(jié)果造成很大的影響;但如果參數(shù)足夠小,數(shù)據(jù)偏移得多一點(diǎn)也不會(huì)對(duì)結(jié)果造成什么影響,專(zhuān)業(yè)一點(diǎn)的說(shuō)法是抗擾動(dòng)能力強(qiáng)。

L1正則:



其中,λ是正則化系數(shù),控制正則化的強(qiáng)度;||w||?表示參數(shù)向量w的L1范數(shù)。

L2正則:


其中,λ是正則化系數(shù),控制正則化的強(qiáng)度;||w||?表示參數(shù)向量w的L2范數(shù)。

給定特征X,訓(xùn)練模型得到的能滿足測(cè)試集和驗(yàn)證集w值,可能有多個(gè)(求導(dǎo)的解不止一組),有的w值比較大,有的w值比較小,為了降低模型的復(fù)雜度,我們需要限制一下w的值,即想求解到比較小的w值,因此我們?cè)趽p失函數(shù)后面直接加上了λ(w),由于梯度下降,為了使得總體L值小,那么后面的w也要比較小,從而得到使得模型的復(fù)雜度降低,從而解決過(guò)擬合問(wèn)題。

2.2 為啥對(duì)參數(shù)w進(jìn)行限制,不對(duì)參數(shù)B進(jìn)行限制呢

因?yàn)锽只能是曲線上下移動(dòng),不能降低復(fù)雜度

2.3 訓(xùn)練時(shí)如何確定λ值

考慮二維的情況,即只有兩個(gè)權(quán)值和 ,此時(shí)對(duì)于梯度下降法,求解函數(shù)的過(guò)程可以畫(huà)出等值線,同時(shí)L1正則化的函數(shù)也可以在二維平面上畫(huà)出來(lái)。如下圖:

圖中彩色圓圈線是Loss中前半部分待優(yōu)化項(xiàng)的等高線,就是說(shuō)在同一條線上其取值相同,且越靠近中心其值越小。
黑色菱形區(qū)域是L1正則項(xiàng)限制。帶有正則化的loss函數(shù)的最優(yōu)解要在黑色菱形區(qū)域和彩色圓圈線之間折中,也就是說(shuō)最優(yōu)解出現(xiàn)在圖中優(yōu)化項(xiàng)等高線與正則化區(qū)域相交處。從圖中可以看出,當(dāng)待優(yōu)化項(xiàng)的等高線逐漸向正則項(xiàng)限制區(qū)域擴(kuò)散時(shí),L1正則化的交點(diǎn)大多在坐標(biāo)軸上,則很多特征維度上其參數(shù)w為0,因此會(huì)產(chǎn)生稀疏解;而正則化前面的系數(shù),可以控制圖形的大小。越小,約束項(xiàng)的圖形越大(上圖中的黑色方框);越大,約束項(xiàng)的圖形就越小,可以小到黑色方框只超出原點(diǎn)范圍一點(diǎn)點(diǎn),這是最優(yōu)點(diǎn)的值中的可以取到很小的值。

同時(shí)L2正則化的函數(shù)也可以在二維平面上畫(huà)出來(lái)。如下圖:

圖中彩色一圈一圈的線是Loss中前半部分待優(yōu)化項(xiàng)的等高線,就是說(shuō)在同一條線上其取值相同,且越靠近中心其值越小。圖中黑色圓形區(qū)域是L2正則項(xiàng)限制。帶有正則化的loss函數(shù)的最優(yōu)解要在loss函數(shù)和正則項(xiàng)之間折中,也就是說(shuō)最優(yōu)解出現(xiàn)在圖中優(yōu)化項(xiàng)等高線與正則化區(qū)域相交處。從圖中可以看出,當(dāng)待優(yōu)化項(xiàng)的等高線逐漸向正則項(xiàng)限制區(qū)域擴(kuò)散時(shí)L2正則化的交點(diǎn)大多在非坐標(biāo)軸上,二維平面下L2正則化的函數(shù)圖形是個(gè)圓,與方形相比,被磨去了棱角。因此與相交時(shí)使得或等于零的機(jī)率小了許多,這就是為什么L2正則化不具有稀疏性的原因。

一般來(lái)說(shuō),λ的確定,從0開(kāi)始,逐漸增大λ。在訓(xùn)練集上學(xué)習(xí)到參數(shù),然后在測(cè)試集上驗(yàn)證誤差。反復(fù)進(jìn)行這個(gè)過(guò)程,直到測(cè)試集上的誤差最小。一般的說(shuō),隨著λ從0開(kāi)始增大,測(cè)試集的誤分類(lèi)率應(yīng)該是先減小后增大,交叉驗(yàn)證的目的,就是為了找到誤分類(lèi)率最小的那個(gè)位置。建議一開(kāi)始將正則項(xiàng)系數(shù)λ設(shè)置為0,先確定一個(gè)比較好的learning rate。然后固定該learning rate,給λ一個(gè)值(比如1.0),然后根據(jù)validation accuracy,將λ增大或者減小10倍,增減10倍是粗調(diào)節(jié),當(dāng)你確定了λ的合適的數(shù)量級(jí)后,比如λ= 0.01,再進(jìn)一步地細(xì)調(diào)節(jié),比如調(diào)節(jié)為0.02,0.03,0.009之類(lèi)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,156評(píng)論 6 529
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 97,866評(píng)論 3 413
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 174,880評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,398評(píng)論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,202評(píng)論 6 405
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,743評(píng)論 1 320
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,822評(píng)論 3 438
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 41,962評(píng)論 0 285
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,476評(píng)論 1 331
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,444評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,579評(píng)論 1 365
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,129評(píng)論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,840評(píng)論 3 344
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,231評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,487評(píng)論 1 281
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,177評(píng)論 3 388
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,568評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容