深度學(xué)習(xí)第八篇---正則化

什么叫過(guò)擬合和欠擬合？

我們?cè)谀Ｐ陀?xùn)練的時(shí)候，通過(guò)把數(shù)據(jù)劃分成訓(xùn)練集和測(cè)試集，然后選擇Loss函數(shù)來(lái)評(píng)估訓(xùn)練效果怎么樣，其loss函數(shù)在訓(xùn)練集上的值叫訓(xùn)練誤差，在測(cè)試集上叫泛化誤差，當(dāng)訓(xùn)練誤差比較大的時(shí)候，可能說(shuō)明模型參數(shù)量比較小，難以擬合所有數(shù)據(jù)特征，稱(chēng)為欠擬合。反之當(dāng)訓(xùn)練誤差比較小，但是泛化誤差比較大的時(shí)候，說(shuō)明模型雖然在訓(xùn)練集上有不錯(cuò)的表現(xiàn)，但是在未見(jiàn)過(guò)的測(cè)試集上表現(xiàn)較差的這種現(xiàn)象稱(chēng)過(guò)擬合。

那什么是正則化呢，花書(shū)上說(shuō)“凡是能夠減少泛化誤差的方法”都叫正則化。因此正則化是防止過(guò)擬合和提高模型泛化性能的一類(lèi)方法的統(tǒng)稱(chēng)。
本文記錄一下，經(jīng)典的正則化方法有以下幾種：
● Dropout - 在全連接層中隨機(jī)丟棄部分神經(jīng)元節(jié)點(diǎn)，產(chǎn)生一個(gè)簡(jiǎn)化了的網(wǎng)絡(luò)結(jié)構(gòu)
● L1/L2正則化 - 在原始的損失函數(shù)中增加L1/L2的懲罰項(xiàng)，從而限制產(chǎn)生較大的權(quán)重w
● Batch normalization - 控制隱層的輸出在一個(gè)穩(wěn)定的范圍內(nèi)
● 數(shù)據(jù)增強(qiáng) - 通過(guò)增加數(shù)據(jù)集多樣性的方式避免過(guò)擬合
● Early stopping - 在達(dá)到模型過(guò)擬合的階段前停止訓(xùn)練模型

1 Dropout （隨機(jī)失效）

Dropout通過(guò)隨機(jī)地將一些神經(jīng)元的輸出置零，迫使模型不依賴(lài)于特定的神經(jīng)元，從而增強(qiáng)了模型的泛化能力。這樣，每個(gè)神經(jīng)元都將學(xué)習(xí)到與其他神經(jīng)元合作的特征，而不是過(guò)度依賴(lài)于某些特定的神經(jīng)元。
在PyTorch中，可以通過(guò)在網(wǎng)絡(luò)層中添加torch.nn.Dropout層來(lái)實(shí)現(xiàn)Dropout。例如：

import torch
import torch.nn as nn

if __name__ == '__main__':
   # 創(chuàng)建一個(gè)4行5列的矩陣
   matrix = torch.randn(4, 5)

   # 定義Dropout層，設(shè)置p參數(shù)為0.2，表示將20%的元素設(shè)置為0
   dropout = nn.Dropout(p=0.2)

   # 應(yīng)用Dropout層
   matrix_dropout = dropout(matrix)

   print("原始矩陣:")
   print(matrix)
   print()
   print("應(yīng)用Dropout后的矩陣:")
   print(matrix_dropout)

輸出：

原始矩陣:
tensor([[ 0.1143, -1.0621,  0.7031, -0.7662, -1.1596],
       [-0.8340, -0.8210, -0.8747,  1.3130, -2.2559],
       [-0.6311,  0.4332,  2.6923,  0.0424,  1.1330],
       [ 1.7028,  0.3254,  0.1760,  1.9037, -0.2492]])

應(yīng)用Dropout后的矩陣:
tensor([[ 0.1429, -1.3276,  0.8788, -0.9577, -1.4495],
       [-1.0425, -1.0262, -1.0934,  1.6413, -2.8199],
       [-0.0000,  0.5415,  3.3653,  0.0000,  0.0000],
       [ 0.0000,  0.4068,  0.2201,  0.0000, -0.3115]])

數(shù)一數(shù)剛剛好4個(gè)0。在舉一個(gè)例子，在實(shí)際網(wǎng)絡(luò)中應(yīng)用也比較簡(jiǎn)單。

import torch
import torch.nn as nn

# 定義一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)
class Net(nn.Module):
   def __init__(self):
       super(Net, self).__init__()
       self.fc1 = nn.Linear(100, 64)
       self.dropout = nn.Dropout(0.5)
       self.fc2 = nn.Linear(64, 10)

   def forward(self, x):
       x = self.fc1(x)
       x = self.dropout(x)
       x = torch.relu(x)
       x = self.fc2(x)
       return x

# 創(chuàng)建網(wǎng)絡(luò)實(shí)例
net = Net()

# 在訓(xùn)練過(guò)程中使用dropout
net.train()

# 在測(cè)試過(guò)程中禁用dropout
net.eval()

在訓(xùn)練過(guò)程中，通過(guò)調(diào)用net.train()啟用Dropout層，而在測(cè)試過(guò)程中，通過(guò)調(diào)用net.eval()禁用Dropout層。這是因?yàn)樵谟?xùn)練過(guò)程中，Dropout層會(huì)隨機(jī)丟棄神經(jīng)元的輸出，而在測(cè)試過(guò)程中，我們希望保留所有神經(jīng)元的輸出來(lái)獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。

2 L1/L2正則化

Loss函數(shù)：

2.1 為什么L1，L2正則可以解決過(guò)擬合問(wèn)題？

答：模型的復(fù)雜度和參數(shù)的數(shù)量和參數(shù)的范圍決定，擬合過(guò)程中通常都傾向于讓權(quán)值盡可能小，最后構(gòu)造一個(gè)所有參數(shù)都比較小的模型。因?yàn)橐话阏J(rèn)為參數(shù)值小的模型比較簡(jiǎn)單，能適應(yīng)不同的數(shù)據(jù)集，也在一定程度上避免了過(guò)擬合現(xiàn)象。可以設(shè)想一下對(duì)于一個(gè)線性回歸方程，若參數(shù)很大，那么只要數(shù)據(jù)偏移一點(diǎn)點(diǎn)，就會(huì)對(duì)結(jié)果造成很大的影響；但如果參數(shù)足夠小，數(shù)據(jù)偏移得多一點(diǎn)也不會(huì)對(duì)結(jié)果造成什么影響，專(zhuān)業(yè)一點(diǎn)的說(shuō)法是抗擾動(dòng)能力強(qiáng)。

L1正則：

其中，λ是正則化系數(shù)，控制正則化的強(qiáng)度；||w||?表示參數(shù)向量w的L1范數(shù)。

L2正則：

其中，λ是正則化系數(shù)，控制正則化的強(qiáng)度；||w||?表示參數(shù)向量w的L2范數(shù)。

給定特征X，訓(xùn)練模型得到的能滿足測(cè)試集和驗(yàn)證集w值，可能有多個(gè)（求導(dǎo)的解不止一組），有的w值比較大，有的w值比較小，為了降低模型的復(fù)雜度，我們需要限制一下w的值，即想求解到比較小的w值，因此我們?cè)趽p失函數(shù)后面直接加上了λ（w），由于梯度下降，為了使得總體L值小，那么后面的w也要比較小，從而得到使得模型的復(fù)雜度降低，從而解決過(guò)擬合問(wèn)題。

2.2 為啥對(duì)參數(shù)w進(jìn)行限制，不對(duì)參數(shù)B進(jìn)行限制呢

因?yàn)锽只能是曲線上下移動(dòng)，不能降低復(fù)雜度

2.3 訓(xùn)練時(shí)如何確定λ值

考慮二維的情況，即只有兩個(gè)權(quán)值和，此時(shí)對(duì)于梯度下降法，求解函數(shù)的過(guò)程可以畫(huà)出等值線，同時(shí)L1正則化的函數(shù)也可以在二維平面上畫(huà)出來(lái)。如下圖：

圖中彩色圓圈線是Loss中前半部分待優(yōu)化項(xiàng)的等高線，就是說(shuō)在同一條線上其取值相同，且越靠近中心其值越小。
黑色菱形區(qū)域是L1正則項(xiàng)限制。帶有正則化的loss函數(shù)的最優(yōu)解要在黑色菱形區(qū)域和彩色圓圈線之間折中，也就是說(shuō)最優(yōu)解出現(xiàn)在圖中優(yōu)化項(xiàng)等高線與正則化區(qū)域相交處。從圖中可以看出，當(dāng)待優(yōu)化項(xiàng)的等高線逐漸向正則項(xiàng)限制區(qū)域擴(kuò)散時(shí)，L1正則化的交點(diǎn)大多在坐標(biāo)軸上，則很多特征維度上其參數(shù)w為0，因此會(huì)產(chǎn)生稀疏解；而正則化前面的系數(shù)，可以控制圖形的大小。越小，約束項(xiàng)的圖形越大（上圖中的黑色方框）；越大，約束項(xiàng)的圖形就越小，可以小到黑色方框只超出原點(diǎn)范圍一點(diǎn)點(diǎn)，這是最優(yōu)點(diǎn)的值中的可以取到很小的值。

同時(shí)L2正則化的函數(shù)也可以在二維平面上畫(huà)出來(lái)。如下圖：

圖中彩色一圈一圈的線是Loss中前半部分待優(yōu)化項(xiàng)的等高線，就是說(shuō)在同一條線上其取值相同，且越靠近中心其值越小。圖中黑色圓形區(qū)域是L2正則項(xiàng)限制。帶有正則化的loss函數(shù)的最優(yōu)解要在loss函數(shù)和正則項(xiàng)之間折中，也就是說(shuō)最優(yōu)解出現(xiàn)在圖中優(yōu)化項(xiàng)等高線與正則化區(qū)域相交處。從圖中可以看出，當(dāng)待優(yōu)化項(xiàng)的等高線逐漸向正則項(xiàng)限制區(qū)域擴(kuò)散時(shí)L2正則化的交點(diǎn)大多在非坐標(biāo)軸上，二維平面下L2正則化的函數(shù)圖形是個(gè)圓，與方形相比，被磨去了棱角。因此與相交時(shí)使得或等于零的機(jī)率小了許多，這就是為什么L2正則化不具有稀疏性的原因。

一般來(lái)說(shuō)，λ的確定，從0開(kāi)始，逐漸增大λ。在訓(xùn)練集上學(xué)習(xí)到參數(shù)，然后在測(cè)試集上驗(yàn)證誤差。反復(fù)進(jìn)行這個(gè)過(guò)程，直到測(cè)試集上的誤差最小。一般的說(shuō)，隨著λ從0開(kāi)始增大，測(cè)試集的誤分類(lèi)率應(yīng)該是先減小后增大，交叉驗(yàn)證的目的，就是為了找到誤分類(lèi)率最小的那個(gè)位置。建議一開(kāi)始將正則項(xiàng)系數(shù)λ設(shè)置為0，先確定一個(gè)比較好的learning rate。然后固定該learning rate，給λ一個(gè)值（比如1.0），然后根據(jù)validation accuracy，將λ增大或者減小10倍，增減10倍是粗調(diào)節(jié)，當(dāng)你確定了λ的合適的數(shù)量級(jí)后，比如λ= 0.01，再進(jìn)一步地細(xì)調(diào)節(jié)，比如調(diào)節(jié)為0.02，0.03，0.009之類(lèi)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,156評(píng)論 6贊 529
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 97,866評(píng)論 3贊 413
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 174,880評(píng)論 0贊 373
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 62,398評(píng)論 1贊 308
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,202評(píng)論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 54,743評(píng)論 1贊 320
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,822評(píng)論 3贊 438
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 41,962評(píng)論 0贊 285
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,476評(píng)論 1贊 331
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,444評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,579評(píng)論 1贊 365
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,129評(píng)論 5贊 355
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 43,840評(píng)論 3贊 344
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 34,231評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 35,487評(píng)論 1贊 281
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,177評(píng)論 3贊 388
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,568評(píng)論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

深度學(xué)習(xí)第八篇---正則化

深度學(xué)習(xí)第八篇---正則化

1 Dropout （隨機(jī)失效）

2 L1/L2正則化

2.1 為什么L1，L2正則可以解決過(guò)擬合問(wèn)題？

2.2 為啥對(duì)參數(shù)w進(jìn)行限制，不對(duì)參數(shù)B進(jìn)行限制呢

2.3 訓(xùn)練時(shí)如何確定λ值

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

深度學(xué)習(xí)第八篇---正則化

1 Dropout （隨機(jī)失效）

2 L1/L2正則化

2.1 為什么L1，L2正則可以解決過(guò)擬合問(wèn)題？

2.2 為啥對(duì)參數(shù)w進(jìn)行限制，不對(duì)參數(shù)B進(jìn)行限制呢

2.3 訓(xùn)練時(shí)如何確定λ值

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频