什么叫過(guò)擬合和欠擬合?
我們?cè)谀P陀?xùn)練的時(shí)候,通過(guò)把數(shù)據(jù)劃分成訓(xùn)練集和測(cè)試集,然后選擇Loss函數(shù)來(lái)評(píng)估訓(xùn)練效果怎么樣,其loss函數(shù)在訓(xùn)練集上的值叫訓(xùn)練誤差,在測(cè)試集上叫泛化誤差,當(dāng)訓(xùn)練誤差比較大的時(shí)候,可能說(shuō)明模型參數(shù)量比較小,難以擬合所有數(shù)據(jù)特征,稱(chēng)為欠擬合。反之當(dāng)訓(xùn)練誤差比較小,但是泛化誤差比較大的時(shí)候,說(shuō)明模型雖然在訓(xùn)練集上有不錯(cuò)的表現(xiàn),但是在未見(jiàn)過(guò)的測(cè)試集上表現(xiàn)較差的這種現(xiàn)象稱(chēng)過(guò)擬合。
那什么是正則化呢,花書(shū)上說(shuō)“凡是能夠減少泛化誤差的方法”都叫正則化。因此正則化是防止過(guò)擬合和提高模型泛化性能的一類(lèi)方法的統(tǒng)稱(chēng)。
本文記錄一下,經(jīng)典的正則化方法有以下幾種:
● Dropout - 在全連接層中隨機(jī)丟棄部分神經(jīng)元節(jié)點(diǎn),產(chǎn)生一個(gè)簡(jiǎn)化了的網(wǎng)絡(luò)結(jié)構(gòu)
● L1/L2正則化 - 在原始的損失函數(shù)中增加L1/L2的懲罰項(xiàng),從而限制產(chǎn)生較大的權(quán)重w
● Batch normalization - 控制隱層的輸出在一個(gè)穩(wěn)定的范圍內(nèi)
● 數(shù)據(jù)增強(qiáng) - 通過(guò)增加數(shù)據(jù)集多樣性的方式避免過(guò)擬合
● Early stopping - 在達(dá)到模型過(guò)擬合的階段前停止訓(xùn)練模型
1 Dropout (隨機(jī)失效)
Dropout通過(guò)隨機(jī)地將一些神經(jīng)元的輸出置零,迫使模型不依賴(lài)于特定的神經(jīng)元,從而增強(qiáng)了模型的泛化能力。這樣,每個(gè)神經(jīng)元都將學(xué)習(xí)到與其他神經(jīng)元合作的特征,而不是過(guò)度依賴(lài)于某些特定的神經(jīng)元。
在PyTorch中,可以通過(guò)在網(wǎng)絡(luò)層中添加torch.nn.Dropout層來(lái)實(shí)現(xiàn)Dropout。例如:
import torch
import torch.nn as nn
if __name__ == '__main__':
# 創(chuàng)建一個(gè)4行5列的矩陣
matrix = torch.randn(4, 5)
# 定義Dropout層,設(shè)置p參數(shù)為0.2,表示將20%的元素設(shè)置為0
dropout = nn.Dropout(p=0.2)
# 應(yīng)用Dropout層
matrix_dropout = dropout(matrix)
print("原始矩陣:")
print(matrix)
print()
print("應(yīng)用Dropout后的矩陣:")
print(matrix_dropout)
輸出:
原始矩陣:
tensor([[ 0.1143, -1.0621, 0.7031, -0.7662, -1.1596],
[-0.8340, -0.8210, -0.8747, 1.3130, -2.2559],
[-0.6311, 0.4332, 2.6923, 0.0424, 1.1330],
[ 1.7028, 0.3254, 0.1760, 1.9037, -0.2492]])
應(yīng)用Dropout后的矩陣:
tensor([[ 0.1429, -1.3276, 0.8788, -0.9577, -1.4495],
[-1.0425, -1.0262, -1.0934, 1.6413, -2.8199],
[-0.0000, 0.5415, 3.3653, 0.0000, 0.0000],
[ 0.0000, 0.4068, 0.2201, 0.0000, -0.3115]])
數(shù)一數(shù)剛剛好4個(gè)0。在舉一個(gè)例子,在實(shí)際網(wǎng)絡(luò)中應(yīng)用也比較簡(jiǎn)單。
import torch
import torch.nn as nn
# 定義一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.fc1 = nn.Linear(100, 64)
self.dropout = nn.Dropout(0.5)
self.fc2 = nn.Linear(64, 10)
def forward(self, x):
x = self.fc1(x)
x = self.dropout(x)
x = torch.relu(x)
x = self.fc2(x)
return x
# 創(chuàng)建網(wǎng)絡(luò)實(shí)例
net = Net()
# 在訓(xùn)練過(guò)程中使用dropout
net.train()
# 在測(cè)試過(guò)程中禁用dropout
net.eval()
在訓(xùn)練過(guò)程中,通過(guò)調(diào)用net.train()啟用Dropout層,而在測(cè)試過(guò)程中,通過(guò)調(diào)用net.eval()禁用Dropout層。這是因?yàn)樵谟?xùn)練過(guò)程中,Dropout層會(huì)隨機(jī)丟棄神經(jīng)元的輸出,而在測(cè)試過(guò)程中,我們希望保留所有神經(jīng)元的輸出來(lái)獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。
2 L1/L2正則化
Loss函數(shù):
2.1 為什么L1,L2正則可以解決過(guò)擬合問(wèn)題?
答:模型的復(fù)雜度和參數(shù)的數(shù)量和參數(shù)的范圍決定,擬合過(guò)程中通常都傾向于讓權(quán)值盡可能小,最后構(gòu)造一個(gè)所有參數(shù)都比較小的模型。因?yàn)橐话阏J(rèn)為參數(shù)值小的模型比較簡(jiǎn)單,能適應(yīng)不同的數(shù)據(jù)集,也在一定程度上避免了過(guò)擬合現(xiàn)象。可以設(shè)想一下對(duì)于一個(gè)線性回歸方程,若參數(shù)很大,那么只要數(shù)據(jù)偏移一點(diǎn)點(diǎn),就會(huì)對(duì)結(jié)果造成很大的影響;但如果參數(shù)足夠小,數(shù)據(jù)偏移得多一點(diǎn)也不會(huì)對(duì)結(jié)果造成什么影響,專(zhuān)業(yè)一點(diǎn)的說(shuō)法是抗擾動(dòng)能力強(qiáng)。
L1正則:
其中,λ是正則化系數(shù),控制正則化的強(qiáng)度;||w||?表示參數(shù)向量w的L1范數(shù)。
L2正則:
其中,λ是正則化系數(shù),控制正則化的強(qiáng)度;||w||?表示參數(shù)向量w的L2范數(shù)。
給定特征X,訓(xùn)練模型得到的能滿足測(cè)試集和驗(yàn)證集w值,可能有多個(gè)(求導(dǎo)的解不止一組),有的w值比較大,有的w值比較小,為了降低模型的復(fù)雜度,我們需要限制一下w的值,即想求解到比較小的w值,因此我們?cè)趽p失函數(shù)后面直接加上了λ(w),由于梯度下降,為了使得總體L值小,那么后面的w也要比較小,從而得到使得模型的復(fù)雜度降低,從而解決過(guò)擬合問(wèn)題。
2.2 為啥對(duì)參數(shù)w進(jìn)行限制,不對(duì)參數(shù)B進(jìn)行限制呢
因?yàn)锽只能是曲線上下移動(dòng),不能降低復(fù)雜度
2.3 訓(xùn)練時(shí)如何確定λ值
考慮二維的情況,即只有兩個(gè)權(quán)值和 ,此時(shí)對(duì)于梯度下降法,求解函數(shù)的過(guò)程可以畫(huà)出等值線,同時(shí)L1正則化的函數(shù)也可以在二維平面上畫(huà)出來(lái)。如下圖:
圖中彩色圓圈線是Loss中前半部分待優(yōu)化項(xiàng)的等高線,就是說(shuō)在同一條線上其取值相同,且越靠近中心其值越小。
黑色菱形區(qū)域是L1正則項(xiàng)限制。帶有正則化的loss函數(shù)的最優(yōu)解要在黑色菱形區(qū)域和彩色圓圈線之間折中,也就是說(shuō)最優(yōu)解出現(xiàn)在圖中優(yōu)化項(xiàng)等高線與正則化區(qū)域相交處。從圖中可以看出,當(dāng)待優(yōu)化項(xiàng)的等高線逐漸向正則項(xiàng)限制區(qū)域擴(kuò)散時(shí),L1正則化的交點(diǎn)大多在坐標(biāo)軸上,則很多特征維度上其參數(shù)w為0,因此會(huì)產(chǎn)生稀疏解;而正則化前面的系數(shù),可以控制圖形的大小。越小,約束項(xiàng)的圖形越大(上圖中的黑色方框);越大,約束項(xiàng)的圖形就越小,可以小到黑色方框只超出原點(diǎn)范圍一點(diǎn)點(diǎn),這是最優(yōu)點(diǎn)的值中的可以取到很小的值。
同時(shí)L2正則化的函數(shù)也可以在二維平面上畫(huà)出來(lái)。如下圖:
圖中彩色一圈一圈的線是Loss中前半部分待優(yōu)化項(xiàng)的等高線,就是說(shuō)在同一條線上其取值相同,且越靠近中心其值越小。圖中黑色圓形區(qū)域是L2正則項(xiàng)限制。帶有正則化的loss函數(shù)的最優(yōu)解要在loss函數(shù)和正則項(xiàng)之間折中,也就是說(shuō)最優(yōu)解出現(xiàn)在圖中優(yōu)化項(xiàng)等高線與正則化區(qū)域相交處。從圖中可以看出,當(dāng)待優(yōu)化項(xiàng)的等高線逐漸向正則項(xiàng)限制區(qū)域擴(kuò)散時(shí)L2正則化的交點(diǎn)大多在非坐標(biāo)軸上,二維平面下L2正則化的函數(shù)圖形是個(gè)圓,與方形相比,被磨去了棱角。因此與相交時(shí)使得或等于零的機(jī)率小了許多,這就是為什么L2正則化不具有稀疏性的原因。
一般來(lái)說(shuō),λ的確定,從0開(kāi)始,逐漸增大λ。在訓(xùn)練集上學(xué)習(xí)到參數(shù),然后在測(cè)試集上驗(yàn)證誤差。反復(fù)進(jìn)行這個(gè)過(guò)程,直到測(cè)試集上的誤差最小。一般的說(shuō),隨著λ從0開(kāi)始增大,測(cè)試集的誤分類(lèi)率應(yīng)該是先減小后增大,交叉驗(yàn)證的目的,就是為了找到誤分類(lèi)率最小的那個(gè)位置。建議一開(kāi)始將正則項(xiàng)系數(shù)λ設(shè)置為0,先確定一個(gè)比較好的learning rate。然后固定該learning rate,給λ一個(gè)值(比如1.0),然后根據(jù)validation accuracy,將λ增大或者減小10倍,增減10倍是粗調(diào)節(jié),當(dāng)你確定了λ的合適的數(shù)量級(jí)后,比如λ= 0.01,再進(jìn)一步地細(xì)調(diào)節(jié),比如調(diào)節(jié)為0.02,0.03,0.009之類(lèi)。