機(jī)器學(xué)習(xí)（深度學(xué)習(xí)）常見(jiàn)面試題--基礎(chǔ)知識(shí)篇

1. 模型評(píng)估

在機(jī)器學(xué)習(xí)領(lǐng)域，模型評(píng)估至關(guān)重要，只有選擇和問(wèn)題相匹配的評(píng)估方法，才能更快更好的完成訓(xùn)練。
將模型評(píng)估之前，需要有幾個(gè)定義牢記心中。

TP — 將正樣本分類為正的數(shù)；
FN — 將正樣本分類為負(fù)的數(shù)；
FP — 將負(fù)樣本分類為正的數(shù)；
TN — 將負(fù)樣本分類為負(fù)的數(shù)。

Accuracy

準(zhǔn)確率，分類正確的樣本占總樣本的比例。
$Accuracy = \frac{n_{correct}}{n_{total}}$
當(dāng)不同類別的樣本比例非常不均衡時(shí)，占比大的類別往往成為影響準(zhǔn)確率的主要因素。即準(zhǔn)確率雖然簡(jiǎn)單直觀，但會(huì)收到樣本不均衡問(wèn)題的干擾，導(dǎo)致不能很好的反應(yīng)模型性能。
可以使用平均準(zhǔn)確率（每個(gè)類別下樣本準(zhǔn)確了的算數(shù)平均）。

Recall

召回率，實(shí)際為正且預(yù)測(cè)為正的樣本量與實(shí)際為正的樣本量的比值。
$Recall = \frac{TP}{TP + FN}$

Precision

精確率，實(shí)際為正且預(yù)測(cè)為正的樣本量與預(yù)測(cè)為正的樣本量的比值。
$Presision = \frac{TP}{TP + FP}$

F1-score

前邊介紹了Recall和Precision，他們是既矛盾又統(tǒng)一的兩個(gè)指標(biāo)。為了提高Precision，模型要盡可能把更有把握的樣本預(yù)測(cè)為正，這就回導(dǎo)致大量實(shí)際為正的樣本預(yù)測(cè)為負(fù)，致使Recall變低。F1-score是個(gè)很好的指標(biāo)能融合Recall和Precision兩個(gè)指標(biāo)。
$F1 = \frac{2 \cdot Precision \cdot Recall }{Precision + Recall}$

P-R曲線

P-R曲線橫軸是Recall，縱軸是Precision。P-R曲線上的每個(gè)點(diǎn)，代表在在某一閾值下，將大于該閾值的樣本分類為正，小于該閾值的樣本分類為負(fù)時(shí)，Recall和Precision的值。P-R曲線是將閾值從大到小排列生成的。

ROC曲線

ROC曲線，受試者工作特征曲線。最初用于軍事和醫(yī)學(xué)領(lǐng)域。橫軸是假陽(yáng)性率（FPR），縱軸是真陽(yáng)性率（TPR）。
$FPR = \frac{FP}{FP + TN}$
$TPR = \frac{TP}{TP + FN}$
ROC曲線的畫(huà)法：
二分類任務(wù)中，模型輸出一般為預(yù)測(cè)樣本為正例的概率。按照預(yù)測(cè)概率從高到低排序，并封別將其作為閾值，大于該閾值的為正例。每個(gè)閾值對(duì)應(yīng)一個(gè)FPR和TPR，連接所有點(diǎn)就成了ROC曲線。

AUC

AUC為ROC曲線下面積。一般取值在0.5～1之間，越大越好。

P-R VS ROC

至此我們分別介紹了P-R曲線和ROC曲線。在非常偏態(tài)的數(shù)據(jù)集上，P-R曲線能更全面衡量模型表現(xiàn)。當(dāng)正負(fù)樣本發(fā)生變化時(shí)，ROC曲線形狀基本不變，而P-R曲線會(huì)發(fā)生劇烈變化。

2. 基礎(chǔ)模型

GBDT（梯度提升樹(shù)）

梯度提升樹(shù)，是機(jī)器學(xué)習(xí)中非常優(yōu)秀的模型。非常好的體現(xiàn)了“從錯(cuò)誤中學(xué)習(xí)”的理念，基于決策樹(shù)訓(xùn)練的殘差進(jìn)行學(xué)習(xí)，其中殘差用損失函數(shù)的負(fù)梯度來(lái)擬合。需要注意的是，在每一輪迭代中，首先計(jì)算當(dāng)前模型在所有樣本上的負(fù)梯度，并以此為新的目標(biāo)訓(xùn)練一個(gè)新的弱分類器并計(jì)算該弱分類器的權(quán)重，最終實(shí)現(xiàn)模型的更新。

GBDT算法

如上圖所示，

h(x_i:a)

表示一個(gè)基函數(shù)，即CART樹(shù)。參數(shù)

a_m

表示樹(shù)的劃分變量、劃分位置等信息，通過(guò)優(yōu)化算法得出。

\rho_m

為當(dāng)前第m棵樹(shù)的權(quán)重，通過(guò)優(yōu)化算法得出。

優(yōu)點(diǎn)

預(yù)測(cè)階段很快，樹(shù)之間可以并行計(jì)算
在分布稠密的數(shù)據(jù)集上，泛化能力和表達(dá)能力都很好
使用弱分類器，具有更好的魯棒性

缺點(diǎn)

在高維稀疏數(shù)據(jù)集上，表現(xiàn)不如SVM或者神經(jīng)網(wǎng)絡(luò)
訓(xùn)練過(guò)程比較慢，需要串行

XGBoost/GBDT及聯(lián)系和區(qū)別

XGBoost是陳天奇等人開(kāi)源的機(jī)器學(xué)習(xí)框架。是GBDT的一種高效實(shí)現(xiàn)方式，并在工程上做了一些改進(jìn)。原始的GBDT由經(jīng)驗(yàn)損失函數(shù)的負(fù)梯度構(gòu)建新的決策樹(shù)，在決策樹(shù)構(gòu)建完成后進(jìn)行剪枝。而XGBoost在構(gòu)建決策樹(shù)階段就加入了正則項(xiàng)
$L_t = \sum_{i}l(y_i, F_{t-1}(x_i) + f_i(x_i)) + \Omega(f_t)$
其中 $\Omega(f_t)$ 樹(shù)結(jié)構(gòu)的正則化項(xiàng)：
$\Omega(f_t) = \gamma T + \frac{1}{2} \lambda\sum_{j=1}^{T}w_j^2$
T為葉子結(jié)點(diǎn)的個(gè)數(shù)， $w_j$ 為葉子結(jié)點(diǎn)預(yù)測(cè)值。
對(duì)損失函數(shù) $L_t$ 在 $F_{t-1}$ 處進(jìn)行二階泰勒展開(kāi)：
$L_t \approx \tilde{L}_t = \sum_{j=1}^T \left[ G_j w_j + \frac{1}{2} (H_j + \lambda) w_j^2 \right] + \gamma T$
其中 $G_j = \sum_{i \in I_j} \nabla_{F_{t-1}}l(y_i, F_{t-1}(x_i))$ ， $H_j = \sum_{i \in I_j} \nabla_{F_{t-1}}^2l(y_i, F_{t-1}(x_i))$ ， $I_j$ 表示所有葉子結(jié)點(diǎn)j的樣本的索引的集合。
如果樹(shù)的結(jié)構(gòu)已知，那么可以通過(guò)對(duì)損失函數(shù)求導(dǎo)得出葉子結(jié)點(diǎn)的預(yù)測(cè)值：
$w_j^* = - \frac{G_j}{H_J + \lambda}$
但是我們很難從所有結(jié)構(gòu)中找到最好的樹(shù)結(jié)構(gòu)，是個(gè)NP-hard問(wèn)題。因此只能用貪心算法找到一個(gè)次優(yōu)的樹(shù)。XGBoost有自己的方式選取最優(yōu)分裂，采用的是CART算法。
將預(yù)測(cè)值倒入到損失函數(shù)中，可以求得損失函數(shù)的極小值：
$\tilde{L}_t^* = - \frac{1}{2} \sum_{j=1}^T[ \frac{G_j^2}{H_j + \lambda} ] + \gamma T$
然后計(jì)算分裂前后損失的差值：
$Gain = \frac{G_L^2}{H_{L} + \lambda } + \frac{G_R^2}{H_{R} + \lambda} - \frac{(G_L + G_R)^2}{H_L + H_R + \lambda} - \gamma$
XGBoost通過(guò)遍歷所有可能的取值，找到最大化Gain的值進(jìn)行分裂。
現(xiàn)總結(jié)如下：

GBDT是算法，XGBoost是其中一種工程實(shí)現(xiàn)
在CART作為基分類器時(shí)，XGBoost引入了正則化項(xiàng)來(lái)控制模型的復(fù)雜度，這有利于防止模型過(guò)擬合。
GBDT在訓(xùn)練時(shí)，只用了損失函數(shù)的一階導(dǎo)數(shù)，XGBoost對(duì)損失函數(shù)進(jìn)行泰勒展開(kāi)，同時(shí)用了一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。
傳統(tǒng)GBDT采用CART樹(shù)作為基分類起，XGBoost支持多種類型的分類器。
傳統(tǒng)GBDT在每輪迭代是使用了全部數(shù)據(jù)，XGBoost采用了類似隨機(jī)森林的策略，支持對(duì)數(shù)據(jù)進(jìn)行采樣。
傳統(tǒng)GBDT沒(méi)有對(duì)缺失值進(jìn)行處理，XGBoost采用稀疏感知算法，能自動(dòng)學(xué)習(xí)出缺失值的處理策略。稀疏感知算法，分別枚舉特征缺省的樣本歸為左右分支后的增益，選擇增益最大的枚舉項(xiàng)即為最優(yōu)缺省方向。

LightGBM和XGBoost的區(qū)別

從名字可以看出，LightGBM是輕量級(jí)的GBM，相比XGBoost有訓(xùn)練速度快，占用內(nèi)存底等特點(diǎn)。

單邊梯度抽樣算法（GOSS）

GBDT的梯度大小可以反應(yīng)樣本的權(quán)重，梯度越小說(shuō)明模型擬合越好。單邊梯度抽樣算法利用這一點(diǎn)，減少了梯度小的樣本，計(jì)算過(guò)程中重點(diǎn)關(guān)注梯度大的樣本，極大減少了計(jì)算量。同時(shí)為了不改變樣本分布，在計(jì)算增益時(shí)，對(duì)梯度小的樣本引入一個(gè)常數(shù)進(jìn)行平衡。

直方圖算法

直方圖法，是將連續(xù)特征離散化成k特離散特征，從而不再需要遍歷所有取值，只需要遍歷k個(gè)離散特征尋找最佳分裂點(diǎn)。雖然該方法可能會(huì)對(duì)模型精度有一定影響，在一定程度上起到了正則化的效果。

互斥特征捆綁算法

特征之間有可能是互相排斥的，將互相排斥的特征捆綁，可以降低特征數(shù)量。

基于最大深度的 Leaf-wise 的垂直生長(zhǎng)算法

Level-wise：基于層進(jìn)行生長(zhǎng)，直到達(dá)到停止條件；
Leaf-wise：每次分裂增益最大的葉子節(jié)點(diǎn)，直到達(dá)到停止條件。

XGBoost 采用 Level-wise 的增長(zhǎng)策略，方便并行計(jì)算每一層的分裂節(jié)點(diǎn)，提高了訓(xùn)練速度，但同時(shí)也因?yàn)楣?jié)點(diǎn)增益過(guò)小增加了很多不必要的分裂，降低了計(jì)算量； LightGBM 采用 Leaf-wise 的增長(zhǎng)策略減少了計(jì)算量，配合最大深度的限制防止過(guò)擬合，由于每次都需要計(jì)算增益最大的節(jié)點(diǎn)，所以無(wú)法并行分裂。

類別特征最優(yōu)分割

LightGBM 原生支持類別特征，采用 many-vs-many 的切分方式將類別特征分為兩個(gè)子集，實(shí)現(xiàn)類別特征的最優(yōu)切分。假設(shè)有某維特征有 k 個(gè)類別，則有 2^{(k-1)} - 1 中可能，時(shí)間復(fù)雜度為 O(2^k) ，LightGBM 基于 Fisher 大佬的《On Grouping For Maximum Homogeneity》實(shí)現(xiàn)了 O(klog_2k) 的時(shí)間復(fù)雜度。

特征并行和數(shù)據(jù)并行

緩存優(yōu)化

LightGBM怎么調(diào)參

以下是參數(shù)結(jié)束，復(fù)制自官網(wǎng)。

boosting_type (str, optional (default='gbdt')) – ‘gbdt’, traditional Gradient Boosting Decision Tree. ‘dart’, Dropouts meet Multiple Additive Regression Trees. ‘goss’, Gradient-based One-Side Sampling. ‘rf’, Random Forest.

num_leaves (int, optional (default=31)) – Maximum tree leaves for base learners.

max_depth (int, optional (default=-1)) – Maximum tree depth for base learners, <=0 means no limit.

learning_rate (float, optional (default=0.1)) – Boosting learning rate. You can use callbacks parameter of fit method to shrink/adapt learning rate in training using reset_parameter callback. Note, that this will ignore the learning_rate argument in training.

n_estimators (int, optional (default=100)) – Number of boosted trees to fit.

subsample_for_bin (int, optional (default=200000)) – Number of samples for constructing bins.

objective (str, callable or None, optional (default=None)) – Specify the learning task and the corresponding learning objective or a custom objective function to be used (see note below). Default: ‘regression’ for LGBMRegressor, ‘binary’ or ‘multiclass’ for LGBMClassifier, ‘lambdarank’ for LGBMRanker.

class_weight (dict, 'balanced' or None, optional (default=None)) – Weights associated with classes in the form {class_label: weight}. Use this parameter only for multi-class classification task; for binary classification task you may use is_unbalance or scale_pos_weight parameters. Note, that the usage of all these parameters will result in poor estimates of the individual class probabilities. You may want to consider performing probability calibration (https://scikit-learn.org/stable/modules/calibration.html) of your model. The ‘balanced’ mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as n_samples / (n_classes * np.bincount(y)). If None, all classes are supposed to have weight one. Note, that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified.

min_split_gain (float, optional (default=0.)) – Minimum loss reduction required to make a further partition on a leaf node of the tree.

min_child_weight (float, optional (default=1e-3)) – Minimum sum of instance weight (hessian) needed in a child (leaf).

min_child_samples (int, optional (default=20)) – Minimum number of data needed in a child (leaf).

subsample (float, optional (default=1.)) – Subsample ratio of the training instance.

subsample_freq (int, optional (default=0)) – Frequency of subsample, <=0 means no enable.

colsample_bytree (float, optional (default=1.)) – Subsample ratio of columns when constructing each tree.

reg_alpha (float, optional (default=0.)) – L1 regularization term on weights.

reg_lambda (float, optional (default=0.)) – L2 regularization term on weights.

random_state (int, RandomState object or None, optional (default=None)) – Random number seed. If int, this number is used to seed the C++ code. If RandomState object (numpy), a random integer is picked based on its state to seed the C++ code. If None, default seeds in C++ code are used.

n_jobs (int, optional (default=-1)) – Number of parallel threads to use for training (can be changed at prediction time).

importance_type (str, optional (default='split')) – The type of feature importance to be filled into feature_importances_. If ‘split’, result contains numbers of times the feature is used in a model. If ‘gain’, result contains total gains of splits which use the feature.

針對(duì)更好的準(zhǔn)確率

Use large max_bin (may be slower)
Use small learning_rate with large num_iterations
Use large num_leaves (may cause over-fitting)
Use bigger training data
Try dart
使用較大的 max_bin （學(xué)習(xí)速度可能變慢）
使用較小的 learning_rate 和較大的 num_iterations
使用較大的 num_leaves （可能導(dǎo)致過(guò)擬合）
使用更大的訓(xùn)練數(shù)據(jù)
嘗試 dart

處理過(guò)擬合

使用early_stopping
Use small max_bin
Use small num_leaves
Use min_data_in_leaf and min_sum_hessian_in_leaf
Use bagging by set bagging_fraction and bagging_freq
Use feature sub-sampling by set feature_fraction
Use bigger training data
Try lambda_l1, lambda_l2 and min_gain_to_split for regularization
Try max_depth to avoid growing deep tree
使用較小的 max_bin
使用較小的 num_leaves
使用 min_data_in_leaf 和 min_sum_hessian_in_leaf
通過(guò)設(shè)置 bagging_fraction 和 bagging_freq 來(lái)使用 bagging
通過(guò)設(shè)置 feature_fraction 來(lái)使用特征子抽樣
使用更大的訓(xùn)練數(shù)據(jù)
使用 lambda_l1, lambda_l2 和 min_gain_to_split 來(lái)使用正則
嘗試 max_depth 來(lái)避免生成過(guò)深的樹(shù)

邏輯回歸損失函數(shù)推導(dǎo)

邏輯回歸
$p = \sigma(\theta^TX)$
其中 $\sigma(x) = \frac{1}{1 - e^{-x} }$ 。也叫對(duì)數(shù)幾率回歸：
$log \frac{p}{1-p} = \theta^TX$
其中 $\frac{p}{1-p}$ 為幾率。
已知邏輯回歸模型：
$p = \frac{1}{1 - e^{-\theta^TX}} \\ \left\{ \begin{array}{**lr**} y = 1 & p \geq 0.5 \\ y = 0 & p < 0.5 \end{array} \right.$
邏輯回歸作為二分類問(wèn)題，損失函數(shù)也分為兩部分

當(dāng)真實(shí)樣本y=1時(shí)，估計(jì)出來(lái)的概率p越小，損失函數(shù)值越大
當(dāng)真實(shí)樣本y=0時(shí)，估計(jì)出來(lái)的概率p越大，損失函數(shù)值越大
可以使用如下函數(shù)
$J = \left\{ \begin{array}{**lr**} -log(p) & y = 1 \\ -log(1-p) & y = 0 \end{array} \right.$
上邊兩個(gè)式子可以合并：
$J(p, y) = -log(p)^y - log(1-p)^{1-y}$
對(duì)于整個(gè)集合的損失函數(shù)，可以取其平均值：
$J(\theta) = - \frac{1}{m} \sum_{i=1}^{m}y_ilog(p_i) + (1-y_i)log(1-p_i)$
其中 $p_i = \sigma(\theta^Tx_i)$ 。
即：
$L(\theta) = - \frac{1}{m} \sum_{i=1}^{m} y_i log(\sigma(\theta^TX_i)) + (1 - y_i) log(1-\sigma(\theta^TX_i))$

SoftMax和CrossEntropy求梯度

我們考慮如下結(jié)構(gòu)的softmax

softmax

輸入分別為1、2、3，經(jīng)過(guò)全連接后得到4、5、6，在對(duì)4、5、6做softmax，得到a4、a5、a6。
a4、a5、a6機(jī)會(huì)模型輸出的概率分布，損失函數(shù)為 -Y log A。現(xiàn)在考慮對(duì)w41求導(dǎo)：

\frac{\delta Loss}{\delta w_{41}} = \frac{\delta Loss}{\delta A} \cdot \frac{\delta A}{\delta z_4 } \cdot \frac{\delta z_4 }{\delta w_{41}}

其中

\frac{\delta Loss}{\delta a_4} = \frac{1}{a_4}

\frac{\delta z_4 }{\delta w_{41}} = x_1

，比較麻煩的是

\frac{\delta A }{\delta z_4 }

。
當(dāng)i = j時(shí)：

\frac{\delta a_j }{\delta z_j } = a_j(1-a_j)

當(dāng)i != j時(shí)：

\frac{\delta a_j }{\delta z_i } = -a_ja_i

3. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)有哪些初始化方法

神經(jīng)網(wǎng)絡(luò)初始化的選擇很關(guān)鍵，不合理的初始化甚至?xí)?dǎo)致梯度消失、梯度爆炸等問(wèn)題，對(duì)模型訓(xùn)練產(chǎn)生負(fù)面影響。

1. 全零初始化或等值初始化

并不推薦，由于每個(gè)神經(jīng)元學(xué)到的東西完全相同，會(huì)導(dǎo)致對(duì)稱性問(wèn)題。

2. 正態(tài)初始化

0均值，標(biāo)準(zhǔn)差設(shè)置成一個(gè)小值。
這樣做的好處是，權(quán)重有相同的偏差，有正有負(fù)，比較合理。

3. 均值初始化

均值初始化的區(qū)間為 $[- \frac{1}{\sqrt{n_{in}}}, \frac{1}{\sqrt{n_{in}} }], n_{in}$ 表示輸入神經(jīng)元的數(shù)量。

4. Xavier初始化

根據(jù)sigmoid函數(shù)的特點(diǎn)，可以推想出：
如果初始化值很小，隨著層數(shù)的傳遞，方差就會(huì)趨近于0，從而導(dǎo)致失去非線性只有線性。
如果初始化值很大，隨著層數(shù)的傳遞，方差會(huì)迅速變大，sigmoid的輸入很大時(shí)，會(huì)導(dǎo)致梯度小時(shí)問(wèn)題。Xavier初始化同時(shí)考慮了網(wǎng)絡(luò)的大小（輸入、輸出神經(jīng)元數(shù)量），有兩種方法：

均值為0，方差為 $\sqrt{\frac{2}{n_{in} + n_{out}}}$
均勻分布， $[-\sqrt\frac{6}{n_{in} + n_{out}}, \sqrt\frac{6}{n_{in} + n_{out } } ]$
這種方法對(duì)于激活函數(shù)是sigmoid或tanh的神經(jīng)網(wǎng)絡(luò)比較好。

5. He 初始化

也有兩種方式：

均值為0，方差為 $\sqrt\frac{2}{n_{in}}$
均勻分布， $[- \sqrt\frac{6}{n_{in }}, \sqrt\frac{6}{n_{in} }]$
適用于ReLU等為激活函數(shù)的神經(jīng)網(wǎng)絡(luò)。

6. Pre-trained

即最近流行的遷移學(xué)習(xí)，使用與訓(xùn)練的權(quán)重初始化，起點(diǎn)更好，收斂速度更快。

BatchNorm

訓(xùn)練和測(cè)試

Batch-Normalization是一種讓神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快、更穩(wěn)定的方法。計(jì)算每個(gè)mini-batch的均值方差，并將輸入拉回到均值為0方差為1的表征正態(tài)分布，最后還要學(xué)習(xí) $\gamma \beta$ 對(duì)其進(jìn)行伸縮變換，最終得到Batch-Normalization層的輸出。

batch-normalization

需要注意的是，在測(cè)試階段，由于不一定存在mini-batch，因此需要使用訓(xùn)練階段的均值、方差。
affine表示是否進(jìn)行仿射。
track_running_stats表示是否使用全局均值、方差。
記錄一個(gè)滑動(dòng)平均的均值、方差：
mean = momentum * mean + (1-momentum) * x_mean
var = momentum * var + (1-momentum) * x_var

研究表明，BatchNorm放到激活函數(shù)之后通常能帶來(lái)更好的效果。

BatchNorm作用

隨著網(wǎng)絡(luò)的深入，每個(gè)隱藏層的參數(shù)變化導(dǎo)致后一層神經(jīng)層的輸入發(fā)生變化，不同batch的數(shù)據(jù)分布也可能發(fā)生細(xì)微變化。這些變化會(huì)迫使神經(jīng)網(wǎng)絡(luò)要擬合到不同分布的數(shù)據(jù)，增加了訓(xùn)練難度和過(guò)擬合風(fēng)險(xiǎn)。
BN效果好是因?yàn)锽N的存在會(huì)引入mini-batch內(nèi)其他樣本的信息，就會(huì)導(dǎo)致預(yù)測(cè)一個(gè)獨(dú)立樣本時(shí)，其他樣本信息相當(dāng)于正則項(xiàng)，使得loss曲面變得更加平滑，更容易找到最優(yōu)解。

Dropout

在機(jī)器學(xué)習(xí)中，如果模型參數(shù)太多，而訓(xùn)練樣本不足，很容易導(dǎo)致模型過(guò)擬合。Dropout可以在一定程度上緩解過(guò)擬合的風(fēng)險(xiǎn)，起到正則化的效果。
Dropout就是在前向傳播的過(guò)程中，讓神經(jīng)元以一定的概率p停止工作，這樣可以使他不過(guò)多依賴特定特征組合，使模型泛化能力更強(qiáng)。

Dropout流程

首先以一定概率刪掉該層的神經(jīng)元，得到新的神經(jīng)網(wǎng)絡(luò)。再把輸入x輸入到新的神經(jīng)網(wǎng)絡(luò)中，得到損失函數(shù)，反向傳播，更新這個(gè)新的神經(jīng)網(wǎng)絡(luò)的參數(shù)。最后恢復(fù)原始的神經(jīng)網(wǎng)絡(luò)，在另一個(gè)batch的訓(xùn)練中重復(fù)前邊兩個(gè)步驟，直到訓(xùn)練完全結(jié)束。
在測(cè)試階段，由于不再以概率p將神經(jīng)元?jiǎng)h除，需要對(duì)權(quán)重W乘以概率參數(shù)p。保證該層輸出比訓(xùn)練階段不出現(xiàn)太大變化。
由于我們訓(xùn)練的時(shí)候會(huì)隨機(jī)的丟棄一些神經(jīng)元，但是預(yù)測(cè)的時(shí)候就沒(méi)辦法隨機(jī)丟棄了。如果丟棄一些神經(jīng)元，這會(huì)帶來(lái)結(jié)果不穩(wěn)定的問(wèn)題，也就是給定一個(gè)測(cè)試數(shù)據(jù)，有時(shí)候輸出a有時(shí)候輸出b，結(jié)果不穩(wěn)定，這是實(shí)際系統(tǒng)不能接受的，用戶可能認(rèn)為模型預(yù)測(cè)不準(zhǔn)。那么一種”補(bǔ)償“的方案就是每個(gè)神經(jīng)元的權(quán)重都乘以一個(gè)p，這樣在“總體上”使得測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)是大致一樣的。比如一個(gè)神經(jīng)元的輸出是x，那么在訓(xùn)練的時(shí)候它有p的概率參與訓(xùn)練，(1-p)的概率丟棄，那么它輸出的期望是px+(1-p)0=px。因此測(cè)試的時(shí)候把這個(gè)神經(jīng)元的權(quán)重乘以p可以得到同樣的期望。

Dropout位置

Dropout一般放到全連接層之后，激活函數(shù)之前，防止過(guò)擬合。一般不會(huì)放到卷基層后，由于卷基層參數(shù)較少，一般使用BatchNorm即可。

Dropout防止過(guò)擬合的原因

取平均。Dropout掉不同的神經(jīng)元，就像在訓(xùn)練不同的神經(jīng)網(wǎng)絡(luò)。不同的網(wǎng)絡(luò)會(huì)產(chǎn)生不同的過(guò)擬合，Dropout相當(dāng)于去平均，防止過(guò)擬合。
減少神經(jīng)元之間復(fù)雜的共適關(guān)系。Dropout可使兩個(gè)神經(jīng)元不一定每次都在同一個(gè)Dropout網(wǎng)絡(luò)中出現(xiàn)，可以防止某些特征僅僅在其他特定特征出現(xiàn)時(shí)才發(fā)揮作用。使神經(jīng)網(wǎng)絡(luò)不會(huì)對(duì)特定的特征片段過(guò)于敏感，防止某些特征丟失導(dǎo)致的性能下降。

源碼中的Dropout

def dropout(x, level):
    if level < 0. or level >= 1: #level是概率值，必須在0~1之間
        raise ValueError('Dropout level must be in interval [0, 1[.')
    retain_prob = 1. - level

    # 我們通過(guò)binomial函數(shù)，生成與x一樣的維數(shù)向量。binomial函數(shù)就像拋硬幣一樣，我們可以把每個(gè)神經(jīng)元當(dāng)做拋硬幣一樣
    # 硬幣 正面的概率為p，n表示每個(gè)神經(jīng)元試驗(yàn)的次數(shù)
    # 因?yàn)槲覀兠總€(gè)神經(jīng)元只需要拋一次就可以了所以n=1，size參數(shù)是我們有多少個(gè)硬幣。
    random_tensor = np.random.binomial(n=1, p=retain_prob, size=x.shape) #即將生成一個(gè)0、1分布的向量，0表示這個(gè)神經(jīng)元被屏蔽，不工作了，也就是dropout了
    print(random_tensor)

    x *= random_tensor
    print(x)
    x /= retain_prob

    return x

計(jì)算CNN輸出，參數(shù)量

W為輸入的長(zhǎng)度。
F為卷積核長(zhǎng)度。
P為padding長(zhǎng)度。
S為stride。
當(dāng)padding = “VALID”時(shí)，
$N = \lfloor \frac{W - F + 2P }{S} \rfloor + 1$
這里表示的是向下取整再加1。
當(dāng)padding='SAME'時(shí)，
$N = \lceil\frac{W}{S} \rceil$ 向上取整。

textRNN網(wǎng)絡(luò)結(jié)構(gòu)

textRNN

textRNN比較簡(jiǎn)單，先是講單詞word embedding，然后輸入到一個(gè)BiLSTM結(jié)構(gòu)中，結(jié)下來(lái)有兩種處理方式：1是講每個(gè)LSTM的最后一個(gè)隱藏狀態(tài)concat到一起；2是將每個(gè)時(shí)間步的兩個(gè)LSTM隱藏狀態(tài)concat到一起，再將所有時(shí)間步對(duì)其取平均值。最終連接個(gè)全連接+softmax。

textCNN網(wǎng)絡(luò)結(jié)構(gòu)

textCNN

將文本當(dāng)作單通道圖片處理，即輸入為(Batch_size, sequence_length, embedding_dim, 1)，然后選取卷積: (2, embedding_dim), (3, embedding_dim), (4, embedding_dim)，每個(gè)卷積選兩個(gè)卷積核。再將卷機(jī)后的結(jié)果做1維的maxpooling，再concat到一起，輸入的softmax中，得到最終分類。

self-attention中為什么除以根號(hào)dk

self-attention公示：
$attention(Q, K, V) = softmax(\frac{QK}{\sqrt{d_k}}) V$
$d_k$ 是詞向量/隱藏層的維度。

一個(gè)原因是除一個(gè)數(shù)，方式輸入到softmax的值過(guò)大，導(dǎo)致偏導(dǎo)數(shù)趨近0.
使QK的結(jié)果滿足期望為0，方差為1的分布，類似于歸一化。

Word2Vec

Skip Gram

Skip-gram的思想是利用目標(biāo)詞預(yù)測(cè)背景詞。其輸入是一個(gè)單詞，輸出是這個(gè)單詞的背景詞。

CBOW

全程是continuous bag of words。其本質(zhì)是通過(guò)context word預(yù)測(cè)targetword，通過(guò)背景詞預(yù)測(cè)目標(biāo)詞。

CBOW

如上圖所示，context word包含C個(gè)單詞，分別是target word的臨近的C個(gè)單詞，將C個(gè)單詞輸出相加再除以C，得到target word的隱藏層，在對(duì)隱藏層進(jìn)行輸出。

Hierarchical Softmax

在NLP任務(wù)重，Vocabrary往往會(huì)很大，因此在尋找概率最大的輸出時(shí)，需要對(duì)一個(gè)很大的向量進(jìn)行Softmax，Hierarchical Softmax可以解決計(jì)算量過(guò)大的問(wèn)題。

Huffman Tree

哈夫曼是一種帶權(quán)路徑長(zhǎng)度最短的二叉樹(shù)，也稱為最優(yōu)二叉樹(shù)。
首先根據(jù)詞頻構(gòu)建哈夫曼樹(shù)，這樣做的優(yōu)點(diǎn)是高頻詞距離跟節(jié)點(diǎn)較近，低頻次距離跟節(jié)點(diǎn)較遠(yuǎn)。
根據(jù)哈夫曼樹(shù)，給出單詞w的條件概率公式：
$p(w|context(w)) = \prod_{j=2}^{l^w} p(d_j^w | x_w, \theta^{w}_{j-1})$
這里邊有幾個(gè)重要的概念需要解釋，其中 $l^w$ 為從跟節(jié)點(diǎn)到單詞w所在的葉子結(jié)點(diǎn)的節(jié)點(diǎn)個(gè)數(shù)， $d_j^w$ 表示單詞在該節(jié)點(diǎn)的編碼（0， 1），注意這是從2開(kāi)始的，因?yàn)楦?jié)點(diǎn)沒(méi)有編碼。
$p(d_j^w | x_w, \theta^{w}_{j-1}) = \left\{ \begin{array}{**lr**} \sigma(x_w^T \theta^W_{j-1}) & d_j^w = 0 \\ 1-\sigma(x_w^T \theta^W_{j-1}) & d_j^w = 1 \end{array} \right.$
對(duì)于邏輯回歸，我們可以用指數(shù)的方式將兩項(xiàng)合并成一項(xiàng)：
$p(d_j^w | x_w, \theta^{w}_{j-1}) =\left[ \sigma(x_w^T \theta^W_{j-1}) \right]^{1-d_j^w} \cdot \left[ 1 - \sigma(x_w^T \theta^W_{j-1}) \right]^{d_j^w}$
將上邊工時(shí)帶入到條件概率公式得到：
$p(w|context(w)) = \prod_{j=2}^{l^w} \left[ \sigma(x_w^T \theta^W_{j-1}) \right]^{1-d_j^w} \cdot \left[ 1 - \sigma(x_w^T \theta^W_{j-1}) \right]^{d_j^w}$

Negative Sampling

對(duì)于Vocabrary過(guò)大的問(wèn)題，還有一種解決方案就是Negative Sampling。一般情況下，在訓(xùn)練過(guò)程中，每個(gè)樣本會(huì)影響網(wǎng)絡(luò)的所有參數(shù)，Negative Sampling的思想，就是每個(gè)樣本只更新部分參數(shù)，而非全部。假設(shè)輸入樣本為('A', 'B')，當(dāng)'A'經(jīng)過(guò)one-hot編碼，隱藏層，輸出為長(zhǎng)度為vocab_size大小的向量，而只有其中'B'對(duì)應(yīng)的單詞是我們希望的輸出，其他都是負(fù)樣本。Negative Sampling的思想是隨機(jī)選擇一小部分負(fù)樣本來(lái)更新權(quán)重。
那么如何選擇Negative Samples呢，根據(jù)一定的概率選出，而這個(gè)概率是和單詞的詞頻相關(guān)的。

ELMo

word2vec十分好用，但有一個(gè)缺陷就是，身為靜態(tài)詞向量，無(wú)法解決一詞多義的問(wèn)題。而ELMo是一種動(dòng)態(tài)詞向量，能根據(jù)語(yǔ)義生成詞向量，因此可以很好的應(yīng)對(duì)一詞多義問(wèn)題。

ELMo

如上圖所示，ELMo的原理是將文本輸入到兩個(gè)BiLSTM中，并將輸入向量、中間層向量和輸出向量分別加權(quán)求和：

ELMo = \alpha_1 \cdot E_1 + \alpha_2 \cdot E_2 + \alpha_3 \cdot E_3

其中

\alpha

為可變參數(shù)，可以使用固定值，也可以在訓(xùn)練過(guò)程中學(xué)習(xí)。再將得到的ELMo結(jié)果輸入到下游任務(wù)重。

未完待續(xù)～

最后編輯于：2021.12.21 17:04:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,663評(píng)論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,125評(píng)論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 175,506評(píng)論 0贊 373
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 62,614評(píng)論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,402評(píng)論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 54,934評(píng)論 1贊 321
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,021評(píng)論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 42,168評(píng)論 0贊 287
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,690評(píng)論 1贊 333
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,596評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,784評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,288評(píng)論 5贊 357
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,027評(píng)論 3贊 347
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 34,404評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 35,662評(píng)論 1贊 280
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,398評(píng)論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,743評(píng)論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機(jī)器學(xué)習(xí)（深度學(xué)習(xí)）常見(jiàn)面試題--基礎(chǔ)知識(shí)篇

1. 模型評(píng)估

Accuracy

Recall

Precision

F1-score

P-R曲線

ROC曲線

AUC

P-R VS ROC

2. 基礎(chǔ)模型

GBDT（梯度提升樹(shù)）

優(yōu)點(diǎn)

缺點(diǎn)

XGBoost/GBDT及聯(lián)系和區(qū)別

LightGBM和XGBoost的區(qū)別

單邊梯度抽樣算法（GOSS）

直方圖算法

互斥特征捆綁算法

基于最大深度的 Leaf-wise 的垂直生長(zhǎng)算法

類別特征最優(yōu)分割

特征并行和數(shù)據(jù)并行

緩存優(yōu)化

LightGBM怎么調(diào)參

針對(duì)更好的準(zhǔn)確率

處理過(guò)擬合

邏輯回歸損失函數(shù)推導(dǎo)

SoftMax和CrossEntropy求梯度

3. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)有哪些初始化方法

1. 全零初始化或等值初始化

2. 正態(tài)初始化

3. 均值初始化

4. Xavier初始化

5. He 初始化

6. Pre-trained

BatchNorm

訓(xùn)練和測(cè)試

BatchNorm作用

Dropout

Dropout流程

Dropout位置

Dropout防止過(guò)擬合的原因

源碼中的Dropout

計(jì)算CNN輸出，參數(shù)量

textRNN網(wǎng)絡(luò)結(jié)構(gòu)

textCNN網(wǎng)絡(luò)結(jié)構(gòu)

self-attention中為什么除以根號(hào)dk

Word2Vec

Skip Gram

CBOW

Hierarchical Softmax

Huffman Tree

Negative Sampling

ELMo

未完待續(xù)～

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频