1. L1 Loss:
令,忽略求和及系數(shù),則有
,其導(dǎo)數(shù)為
隨機梯度下降法更新權(quán)重為:
其中是學(xué)習(xí)率。由此可知,不管預(yù)測值
和真實值
的差值大小
如何變化,反向傳播時其梯度不變。除非調(diào)整學(xué)習(xí)率大小,不然每次權(quán)重更新的幅度不變。
理想中的梯度變化應(yīng)該是:訓(xùn)練初期值較大,則梯度也大,可以加快模型收斂;訓(xùn)練后期
值較小,梯度也應(yīng)小,使模型收斂到全局(或局部)極小值。
L1 Loss 優(yōu)點:梯度值穩(wěn)定,使得訓(xùn)練平穩(wěn);不易受離群點(臟數(shù)據(jù))影響,所有數(shù)據(jù)一視同仁。
L1 Loss 缺點:處不可導(dǎo),可能影響收斂;
值小時梯度大,很難收斂到極小值(除非在
值小時調(diào)小學(xué)習(xí)率,以較小更新幅度)。
2. L2 Loss
令,忽略求和及系數(shù),則有
,其導(dǎo)數(shù)為
可知,對于L2 Loss來說,預(yù)測值和真實值的差值越大,梯度越大;
越小,則梯度值越小。
L2 Loss 優(yōu)點:平滑可導(dǎo);較大時梯度大,收斂快;
較小時梯度小,容易收斂至極值點。
L2 Loss 缺點:訓(xùn)練初期較大導(dǎo)致梯度大,更新幅度太大使得訓(xùn)練不穩(wěn)定,容易出現(xiàn)梯度爆炸現(xiàn)象;受離群點(臟數(shù)據(jù))影響大,容易在離群點的干擾下大幅更新,使擬合函數(shù)偏向離群點而導(dǎo)致準(zhǔn)確率低。
3. Smooth L1 Loss
從上式可知Smooth L1 Loss 是一個分段函數(shù),它綜合了 L1 Loss 和 L2 Loss 兩個損失函數(shù)的優(yōu)點,即在較小時采用平滑地 L2 Loss,在
較大時采用穩(wěn)定的 L1 Loss。
公式(6)衡量的較大和較小的分界線是
,當(dāng)然也可以采用其它值來做這個臨界點。設(shè)
作為衡量預(yù)測值和真實值的差值
的閾值,則公式(6)變?yōu)楦话愕男问剑?br>