在機器學習中,有時候需要對原始的模型構造損失函數,然后通過優劃算法對損失函數進行優劃,從而找到最優的參數使損失函數達到最小值。但損失函數一般都比較復雜,難以從函數本身找到最優的參數,因此實際應用過程中使用得較多的就是梯度下降法。通過逐漸改變參數,使損失函數逐漸收斂,最終確定參數值使損失函數的值最小。
梯度下降的方式分為三種:批量梯度下降(Batch Gradient Descent),隨機梯度下降(stochastic gradient descent),小批量隨機下降(mini-batch Gradient Descent)。批量梯度下降(BGD)針對的是整個數據集,通過對所有的樣本的計算來求解梯度的方向。但是在實際應用中數據量往往會很大,從而導致使用批量梯度下降的效率變得很低,因此引入了隨機批量下降法(SGD),隨機梯度下降法是每次迭代只針對單個樣本計算損失函數對參數的偏導數,從而尋找一個梯度來更新參數,因此效率高于BGD,但是SGD也有一定的局限性,它的收斂效果不如BGD好,因為每次只使用單個樣本進行計算。而小批量隨機下降(MBGD)又針對SGD進行了改進,一次性針對一小部分樣本來計算,因此在提高效率的同時也比SGD更加穩定,降低了隨機性。
接下來就這三種梯度下降方法針對線性回歸問題來進行python的實現
批量梯度下降法
import numpy as np
X = 2 * np.random.random(size=20000).reshape(-1, 2)
y = X[:, 0] * 2. + X[:, 1] * 3. + 3. + np.random.normal(size=10000)
temp = np.ones((len(y), 1))
X_b = np.hstack((temp, X)) #為了矩陣運算方便在X中加上全為1的一列
theta = np.zeros(X_b.shape[1]) #theta是參數,梯度下降通過不斷更新theta的值使損失函數達到最小值
eta = 0.01 #eta代表是學習速率
episilon = 1e-8 #episilon用來判斷損失函數是否收斂
print(X_b.shape)
print(y.shape)
print(theta.shape)
這是運行結果
(10000, 3)
(10000,)
(3,)
在示例中我們創建了一個二維數組,原始的X是只有兩個特征,為了后續矩陣計算的方便,我們給X添加了一個全為1的特征,添加后的結果存在X_b中,后續計算均使用X_b進行。eta代表學習速率,如果eta太小的話,theta下降得就會很慢,但是eta太大的話,參數可能就會朝著增大損失函數的方向移動。episilon用來判斷損失函數是否已經收斂。
def J(theta, X_b, y):
'''
損失函數
'''
return np.sum((y - np.dot(X_b, theta))**2) / len(y)
def dJ(theta, X_b, y):
'''
損失函數對theta的偏導數
'''
gradient = X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)
return gradient
這里定義了兩個函數,J代表損失函數,dJ代表損失函數對參數theta的偏導數。
def gradient_decent(theta, X_b, y):
'''
梯度下降過程
'''
while True:
last_theta = theta
theta = theta - eta * dJ(theta, X_b, y)
if abs(J(theta, X_b, y) - J(last_theta, X_b, y)) <= episilon: #判斷損失函數是否收斂,也可以限定最大迭代次數
break
return theta
這是梯度下降的整個過程,判斷前后兩次損失函數的差值是否小于episilon,若小于的話則判斷為收斂中止循環,若大于的話則繼續梯度下降過程
接下來調用該函數
rst = gradient_decent(theta, X_b, y)
print(rst)
[2.97546654 2.00406701 3.0292728 ]
可以看到rst中的三個數于我們之前設置y的那個方程的三個系數大致是一樣的。rst[0]代表的是截距,即原函數中沒有x的常數項3.0,rst[1]代表的是X第0個特征的系數,原函數中是2.0, rst[2]代表X的第一個特征的系數,原函數中是3.0。
隨機梯度下降法
由于隨機梯度下降法的兩次迭代的損失函數的差值隨機性很強,所以一般不使用episilon來判斷收斂,而是設置一個最大的迭代次數,迭代完之后就return結果。
首先還是使用之前的數據
X = 2 * np.random.random(size=20000).reshape(-1, 2)
y = X[:, 0] * 2. + X[:, 1] * 3. + 3. + np.random.normal(size=10000)
temp = np.ones((len(y), 1))
X_b = np.hstack((temp, X)) #為了矩陣運算方便在X中加上全為1的一列
theta = np.zeros(X_b.shape[1]) #theta是參數,梯度下降通過不斷更新theta的值使損失函數達到最小值
eta = 0.01 #eta代表是學習速率
episilon = 1e-8 #episilon用來判斷損失函數是否收斂
def dJ_sgd(theta, X_b_i, y_i):
return X_b_i.T.dot(X_b_i.dot(theta) - y_i) * 2
def sgd(X_b_i, y, theta, n_iters):
t0 = 5
t1 = 50
def learn_rate(t):
return t0/(t + t1)
theta = theta
for cur_iter in range(n_iters):
rand_i = np.random.randint(len(X_b))
gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
theta = theta - learn_rate(cur_iter) * gradient
return theta
print(sgd(X_b, y, theta, n_iters=len(X_b)//3))
dJ_sgd是損失函數對theta的偏導數,這里傳進去的參數是X_b和y中的某一個樣本的數據。在實現過程中還定義了一個learn_rate的函數,因為在隨機梯度下降過程中學習速率應該要隨次數遞減,因為存在隨機性強的特點,防止下降到局部最小值附近又發生較大的改變。
運行結果
[2.99905964 2.06011999 3.01684189]
小批量隨機下降
小批量隨機下降與隨即梯度下降思路大致相同,只不過傳參的時候需要傳入一部分數據
def dJ_mbgd(theta, X_b_n, y_n, num):
return X_b_n.T.dot(X_b_n.dot(theta) - y_n) * 2 / num
def mbgd(theta, X_b, y, num, n_iters):
t0 = 5
t1 = 50
theta = theta
num = num
def learn_rate(t):
return t0/(t + t1)
for cur_iter in range(n_iters):
x_index = np.random.randint(0, len(y), num)
gradient = dJ_mbgd(theta, X_b[x_index,], y[x_index], num)
theta = theta - learn_rate(cur_iter) * gradient
return theta
print(mbgd(theta, X_b, y, num=20, n_iters=len(X_b)//3))
num代表每次下降使用多少個樣本數據。
運行結果
[2.98763611 2.00527425 3.01625422]