1. 模型評(píng)估
在機(jī)器學(xué)習(xí)領(lǐng)域,模型評(píng)估至關(guān)重要,只有選擇和問(wèn)題相匹配的評(píng)估方法,才能更快更好的完成訓(xùn)練。
將模型評(píng)估之前,需要有幾個(gè)定義牢記心中。
- TP — 將正樣本分類為正的數(shù);
- FN — 將正樣本分類為負(fù)的數(shù);
- FP — 將負(fù)樣本分類為正的數(shù);
- TN — 將負(fù)樣本分類為負(fù)的數(shù)。
Accuracy
準(zhǔn)確率,分類正確的樣本占總樣本的比例。
當(dāng)不同類別的樣本比例非常不均衡時(shí),占比大的類別往往成為影響準(zhǔn)確率的主要因素。即準(zhǔn)確率雖然簡(jiǎn)單直觀,但會(huì)收到樣本不均衡問(wèn)題的干擾,導(dǎo)致不能很好的反應(yīng)模型性能。
可以使用平均準(zhǔn)確率(每個(gè)類別下樣本準(zhǔn)確了的算數(shù)平均)。
Recall
召回率,實(shí)際為正且預(yù)測(cè)為正的樣本量與實(shí)際為正的樣本量的比值。
Precision
精確率,實(shí)際為正且預(yù)測(cè)為正的樣本量與預(yù)測(cè)為正的樣本量的比值。
F1-score
前邊介紹了Recall和Precision,他們是既矛盾又統(tǒng)一的兩個(gè)指標(biāo)。為了提高Precision,模型要盡可能把更有把握的樣本預(yù)測(cè)為正,這就回導(dǎo)致大量實(shí)際為正的樣本預(yù)測(cè)為負(fù),致使Recall變低。F1-score是個(gè)很好的指標(biāo)能融合Recall和Precision兩個(gè)指標(biāo)。
P-R曲線
P-R曲線橫軸是Recall,縱軸是Precision。P-R曲線上的每個(gè)點(diǎn),代表在在某一閾值下,將大于該閾值的樣本分類為正,小于該閾值的樣本分類為負(fù)時(shí),Recall和Precision的值。P-R曲線是將閾值從大到小排列生成的。
ROC曲線
ROC曲線,受試者工作特征曲線。最初用于軍事和醫(yī)學(xué)領(lǐng)域。橫軸是假陽(yáng)性率(FPR),縱軸是真陽(yáng)性率(TPR)。
ROC曲線的畫(huà)法:
二分類任務(wù)中,模型輸出一般為預(yù)測(cè)樣本為正例的概率。按照預(yù)測(cè)概率從高到低排序,并封別將其作為閾值,大于該閾值的為正例。每個(gè)閾值對(duì)應(yīng)一個(gè)FPR和TPR,連接所有點(diǎn)就成了ROC曲線。
AUC
AUC為ROC曲線下面積。一般取值在0.5~1之間,越大越好。
P-R VS ROC
至此我們分別介紹了P-R曲線和ROC曲線。在非常偏態(tài)的數(shù)據(jù)集上,P-R曲線能更全面衡量模型表現(xiàn)。當(dāng)正負(fù)樣本發(fā)生變化時(shí),ROC曲線形狀基本不變,而P-R曲線會(huì)發(fā)生劇烈變化。
2. 基礎(chǔ)模型
GBDT(梯度提升樹(shù))
梯度提升樹(shù),是機(jī)器學(xué)習(xí)中非常優(yōu)秀的模型。非常好的體現(xiàn)了“從錯(cuò)誤中學(xué)習(xí)”的理念,基于決策樹(shù)訓(xùn)練的殘差進(jìn)行學(xué)習(xí),其中殘差用損失函數(shù)的負(fù)梯度來(lái)擬合。需要注意的是,在每一輪迭代中,首先計(jì)算當(dāng)前模型在所有樣本上的負(fù)梯度,并以此為新的目標(biāo)訓(xùn)練一個(gè)新的弱分類器并計(jì)算該弱分類器的權(quán)重,最終實(shí)現(xiàn)模型的更新。
如上圖所示,
優(yōu)點(diǎn)
- 預(yù)測(cè)階段很快,樹(shù)之間可以并行計(jì)算
- 在分布稠密的數(shù)據(jù)集上,泛化能力和表達(dá)能力都很好
- 使用弱分類器,具有更好的魯棒性
缺點(diǎn)
- 在高維稀疏數(shù)據(jù)集上,表現(xiàn)不如SVM或者神經(jīng)網(wǎng)絡(luò)
- 訓(xùn)練過(guò)程比較慢,需要串行
XGBoost/GBDT及聯(lián)系和區(qū)別
XGBoost是陳天奇等人開(kāi)源的機(jī)器學(xué)習(xí)框架。是GBDT的一種高效實(shí)現(xiàn)方式,并在工程上做了一些改進(jìn)。原始的GBDT由經(jīng)驗(yàn)損失函數(shù)的負(fù)梯度構(gòu)建新的決策樹(shù),在決策樹(shù)構(gòu)建完成后進(jìn)行剪枝。而XGBoost在構(gòu)建決策樹(shù)階段就加入了正則項(xiàng)
其中樹(shù)結(jié)構(gòu)的正則化項(xiàng):
T為葉子結(jié)點(diǎn)的個(gè)數(shù),為葉子結(jié)點(diǎn)預(yù)測(cè)值。
對(duì)損失函數(shù)在
處進(jìn)行二階泰勒展開(kāi):
其中,
,
表示所有葉子結(jié)點(diǎn)j的樣本的索引的集合。
如果樹(shù)的結(jié)構(gòu)已知,那么可以通過(guò)對(duì)損失函數(shù)求導(dǎo)得出葉子結(jié)點(diǎn)的預(yù)測(cè)值:
但是我們很難從所有結(jié)構(gòu)中找到最好的樹(shù)結(jié)構(gòu),是個(gè)NP-hard問(wèn)題。因此只能用貪心算法找到一個(gè)次優(yōu)的樹(shù)。XGBoost有自己的方式選取最優(yōu)分裂,采用的是CART算法。
將預(yù)測(cè)值倒入到損失函數(shù)中,可以求得損失函數(shù)的極小值:
然后計(jì)算分裂前后損失的差值:
XGBoost通過(guò)遍歷所有可能的取值,找到最大化Gain的值進(jìn)行分裂。
現(xiàn)總結(jié)如下:
- GBDT是算法,XGBoost是其中一種工程實(shí)現(xiàn)
- 在CART作為基分類器時(shí),XGBoost引入了正則化項(xiàng)來(lái)控制模型的復(fù)雜度,這有利于防止模型過(guò)擬合。
- GBDT在訓(xùn)練時(shí),只用了損失函數(shù)的一階導(dǎo)數(shù),XGBoost對(duì)損失函數(shù)進(jìn)行泰勒展開(kāi),同時(shí)用了一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。
- 傳統(tǒng)GBDT采用CART樹(shù)作為基分類起,XGBoost支持多種類型的分類器。
- 傳統(tǒng)GBDT在每輪迭代是使用了全部數(shù)據(jù),XGBoost采用了類似隨機(jī)森林的策略,支持對(duì)數(shù)據(jù)進(jìn)行采樣。
- 傳統(tǒng)GBDT沒(méi)有對(duì)缺失值進(jìn)行處理,XGBoost采用稀疏感知算法,能自動(dòng)學(xué)習(xí)出缺失值的處理策略。稀疏感知算法,分別枚舉特征缺省的樣本歸為左右分支后的增益,選擇增益最大的枚舉項(xiàng)即為最優(yōu)缺省方向。
LightGBM和XGBoost的區(qū)別
從名字可以看出,LightGBM是輕量級(jí)的GBM,相比XGBoost有訓(xùn)練速度快,占用內(nèi)存底等特點(diǎn)。
單邊梯度抽樣算法(GOSS)
GBDT的梯度大小可以反應(yīng)樣本的權(quán)重,梯度越小說(shuō)明模型擬合越好。單邊梯度抽樣算法利用這一點(diǎn),減少了梯度小的樣本,計(jì)算過(guò)程中重點(diǎn)關(guān)注梯度大的樣本,極大減少了計(jì)算量。同時(shí)為了不改變樣本分布,在計(jì)算增益時(shí),對(duì)梯度小的樣本引入一個(gè)常數(shù)進(jìn)行平衡。
直方圖算法
直方圖法,是將連續(xù)特征離散化成k特離散特征,從而不再需要遍歷所有取值,只需要遍歷k個(gè)離散特征尋找最佳分裂點(diǎn)。雖然該方法可能會(huì)對(duì)模型精度有一定影響,在一定程度上起到了正則化的效果。
互斥特征捆綁算法
特征之間有可能是互相排斥的,將互相排斥的特征捆綁,可以降低特征數(shù)量。
基于最大深度的 Leaf-wise 的垂直生長(zhǎng)算法
- Level-wise: 基于層進(jìn)行生長(zhǎng),直到達(dá)到停止條件;
- Leaf-wise: 每次分裂增益最大的葉子節(jié)點(diǎn),直到達(dá)到停止條件。
XGBoost 采用 Level-wise 的增長(zhǎng)策略,方便并行計(jì)算每一層的分裂節(jié)點(diǎn),提高了訓(xùn)練速度,但同時(shí)也因?yàn)楣?jié)點(diǎn)增益過(guò)小增加了很多不必要的分裂,降低了計(jì)算量; LightGBM 采用 Leaf-wise 的增長(zhǎng)策略減少了計(jì)算量,配合最大深度的限制防止過(guò)擬合,由于每次都需要計(jì)算增益最大的節(jié)點(diǎn),所以無(wú)法并行分裂。
類別特征最優(yōu)分割
LightGBM 原生支持類別特征,采用 many-vs-many 的切分方式將類別特征分為兩個(gè)子集,實(shí)現(xiàn)類別特征的最優(yōu)切分。 假設(shè)有某維特征有 k 個(gè)類別,則有 2^{(k-1)} - 1 中可能,時(shí)間復(fù)雜度為 O(2^k) ,LightGBM 基于 Fisher 大佬的 《On Grouping For Maximum Homogeneity》實(shí)現(xiàn)了 O(klog_2k) 的時(shí)間復(fù)雜度。
特征并行和數(shù)據(jù)并行
緩存優(yōu)化
LightGBM怎么調(diào)參
以下是參數(shù)結(jié)束,復(fù)制自官網(wǎng)。
- boosting_type (str, optional (default='gbdt')) – ‘gbdt’, traditional Gradient Boosting Decision Tree. ‘dart’, Dropouts meet Multiple Additive Regression Trees. ‘goss’, Gradient-based One-Side Sampling. ‘rf’, Random Forest.
- num_leaves (int, optional (default=31)) – Maximum tree leaves for base learners.
- max_depth (int, optional (default=-1)) – Maximum tree depth for base learners, <=0 means no limit.
- learning_rate (float, optional (default=0.1)) – Boosting learning rate. You can use
callbacks
parameter offit
method to shrink/adapt learning rate in training usingreset_parameter
callback. Note, that this will ignore thelearning_rate
argument in training.- n_estimators (int, optional (default=100)) – Number of boosted trees to fit.
- subsample_for_bin (int, optional (default=200000)) – Number of samples for constructing bins.
- objective (str, callable or None, optional (default=None)) – Specify the learning task and the corresponding learning objective or a custom objective function to be used (see note below). Default: ‘regression’ for LGBMRegressor, ‘binary’ or ‘multiclass’ for LGBMClassifier, ‘lambdarank’ for LGBMRanker.
- class_weight (dict, 'balanced' or None, optional (default=None)) – Weights associated with classes in the form
{class_label: weight}
. Use this parameter only for multi-class classification task; for binary classification task you may useis_unbalance
orscale_pos_weight
parameters. Note, that the usage of all these parameters will result in poor estimates of the individual class probabilities. You may want to consider performing probability calibration (https://scikit-learn.org/stable/modules/calibration.html) of your model. The ‘balanced’ mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data asn_samples / (n_classes * np.bincount(y))
. If None, all classes are supposed to have weight one. Note, that these weights will be multiplied withsample_weight
(passed through thefit
method) ifsample_weight
is specified.- min_split_gain (float, optional (default=0.)) – Minimum loss reduction required to make a further partition on a leaf node of the tree.
- min_child_weight (float, optional (default=1e-3)) – Minimum sum of instance weight (hessian) needed in a child (leaf).
- min_child_samples (int, optional (default=20)) – Minimum number of data needed in a child (leaf).
- subsample (float, optional (default=1.)) – Subsample ratio of the training instance.
- subsample_freq (int, optional (default=0)) – Frequency of subsample, <=0 means no enable.
- colsample_bytree (float, optional (default=1.)) – Subsample ratio of columns when constructing each tree.
- reg_alpha (float, optional (default=0.)) – L1 regularization term on weights.
- reg_lambda (float, optional (default=0.)) – L2 regularization term on weights.
- random_state (int, RandomState object or None, optional (default=None)) – Random number seed. If int, this number is used to seed the C++ code. If RandomState object (numpy), a random integer is picked based on its state to seed the C++ code. If None, default seeds in C++ code are used.
- n_jobs (int, optional (default=-1)) – Number of parallel threads to use for training (can be changed at prediction time).
- importance_type (str, optional (default='split')) – The type of feature importance to be filled into
feature_importances_
. If ‘split’, result contains numbers of times the feature is used in a model. If ‘gain’, result contains total gains of splits which use the feature.
針對(duì)更好的準(zhǔn)確率
- Use large
max_bin
(may be slower) - Use small
learning_rate
with largenum_iterations
- Use large
num_leaves
(may cause over-fitting) - Use bigger training data
- Try
dart
- 使用較大的
max_bin
(學(xué)習(xí)速度可能變慢) - 使用較小的
learning_rate
和較大的num_iterations
- 使用較大的
num_leaves
(可能導(dǎo)致過(guò)擬合) - 使用更大的訓(xùn)練數(shù)據(jù)
- 嘗試
dart
處理過(guò)擬合
- 使用early_stopping
- Use small
max_bin
- Use small
num_leaves
- Use
min_data_in_leaf
andmin_sum_hessian_in_leaf
- Use bagging by set
bagging_fraction
andbagging_freq
- Use feature sub-sampling by set
feature_fraction
- Use bigger training data
- Try
lambda_l1
,lambda_l2
andmin_gain_to_split
for regularization - Try
max_depth
to avoid growing deep tree - 使用較小的
max_bin
- 使用較小的
num_leaves
- 使用
min_data_in_leaf
和min_sum_hessian_in_leaf
- 通過(guò)設(shè)置
bagging_fraction
和bagging_freq
來(lái)使用 bagging - 通過(guò)設(shè)置
feature_fraction
來(lái)使用特征子抽樣 - 使用更大的訓(xùn)練數(shù)據(jù)
- 使用
lambda_l1
,lambda_l2
和min_gain_to_split
來(lái)使用正則 - 嘗試
max_depth
來(lái)避免生成過(guò)深的樹(shù)
邏輯回歸損失函數(shù)推導(dǎo)
邏輯回歸
其中。也叫對(duì)數(shù)幾率回歸:
其中為幾率。
已知邏輯回歸模型:
邏輯回歸作為二分類問(wèn)題,損失函數(shù)也分為兩部分
- 當(dāng)真實(shí)樣本y=1時(shí),估計(jì)出來(lái)的概率p越小,損失函數(shù)值越大
- 當(dāng)真實(shí)樣本y=0時(shí),估計(jì)出來(lái)的概率p越大,損失函數(shù)值越大
可以使用如下函數(shù)
上邊兩個(gè)式子可以合并:
對(duì)于整個(gè)集合的損失函數(shù),可以取其平均值:
其中。
即:
SoftMax和CrossEntropy求梯度
我們考慮如下結(jié)構(gòu)的softmax
輸入分別為1、2、3,經(jīng)過(guò)全連接后得到4、5、6,在對(duì)4、5、6做softmax,得到a4、a5、a6。
a4、a5、a6機(jī)會(huì)模型輸出的概率分布,損失函數(shù)為 -Y log A。現(xiàn)在考慮對(duì)w41求導(dǎo):
其中
當(dāng)i = j時(shí):
當(dāng)i != j時(shí):
3. 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)有哪些初始化方法
神經(jīng)網(wǎng)絡(luò)初始化的選擇很關(guān)鍵,不合理的初始化甚至?xí)?dǎo)致梯度消失、梯度爆炸等問(wèn)題,對(duì)模型訓(xùn)練產(chǎn)生負(fù)面影響。
1. 全零初始化或等值初始化
并不推薦,由于每個(gè)神經(jīng)元學(xué)到的東西完全相同,會(huì)導(dǎo)致對(duì)稱性問(wèn)題。
2. 正態(tài)初始化
0均值,標(biāo)準(zhǔn)差設(shè)置成一個(gè)小值。
這樣做的好處是,權(quán)重有相同的偏差,有正有負(fù),比較合理。
3. 均值初始化
均值初始化的區(qū)間為表示輸入神經(jīng)元的數(shù)量。
4. Xavier初始化
根據(jù)sigmoid函數(shù)的特點(diǎn),可以推想出:
如果初始化值很小,隨著層數(shù)的傳遞,方差就會(huì)趨近于0,從而導(dǎo)致失去非線性只有線性。
如果初始化值很大,隨著層數(shù)的傳遞,方差會(huì)迅速變大,sigmoid的輸入很大時(shí),會(huì)導(dǎo)致梯度小時(shí)問(wèn)題。Xavier初始化同時(shí)考慮了網(wǎng)絡(luò)的大小(輸入、輸出神經(jīng)元數(shù)量),有兩種方法:
- 均值為0,方差為
- 均勻分布,
這種方法對(duì)于激活函數(shù)是sigmoid或tanh的神經(jīng)網(wǎng)絡(luò)比較好。
5. He 初始化
也有兩種方式:
- 均值為0,方差為
- 均勻分布,
適用于ReLU等為激活函數(shù)的神經(jīng)網(wǎng)絡(luò)。
6. Pre-trained
即最近流行的遷移學(xué)習(xí),使用與訓(xùn)練的權(quán)重初始化,起點(diǎn)更好,收斂速度更快。
BatchNorm
訓(xùn)練和測(cè)試
Batch-Normalization是一種讓神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快、更穩(wěn)定的方法。計(jì)算每個(gè)mini-batch的均值方差,并將輸入拉回到均值為0方差為1的表征正態(tài)分布,最后還要學(xué)習(xí)對(duì)其進(jìn)行伸縮變換,最終得到Batch-Normalization層的輸出。
需要注意的是,在測(cè)試階段,由于不一定存在mini-batch,因此需要使用訓(xùn)練階段的均值、方差。
affine表示是否進(jìn)行仿射。
track_running_stats表示是否使用全局均值、方差。
記錄一個(gè)滑動(dòng)平均的均值、方差:
mean = momentum * mean + (1-momentum) * x_mean
var = momentum * var + (1-momentum) * x_var
研究表明,BatchNorm放到激活函數(shù)之后通常能帶來(lái)更好的效果。
BatchNorm作用
- 隨著網(wǎng)絡(luò)的深入,每個(gè)隱藏層的參數(shù)變化導(dǎo)致后一層神經(jīng)層的輸入發(fā)生變化,不同batch的數(shù)據(jù)分布也可能發(fā)生細(xì)微變化。這些變化會(huì)迫使神經(jīng)網(wǎng)絡(luò)要擬合到不同分布的數(shù)據(jù),增加了訓(xùn)練難度和過(guò)擬合風(fēng)險(xiǎn)。
- BN效果好是因?yàn)锽N的存在會(huì)引入mini-batch內(nèi)其他樣本的信息,就會(huì)導(dǎo)致預(yù)測(cè)一個(gè)獨(dú)立樣本時(shí),其他樣本信息相當(dāng)于正則項(xiàng),使得loss曲面變得更加平滑,更容易找到最優(yōu)解。
Dropout
在機(jī)器學(xué)習(xí)中,如果模型參數(shù)太多,而訓(xùn)練樣本不足,很容易導(dǎo)致模型過(guò)擬合。Dropout可以在一定程度上緩解過(guò)擬合的風(fēng)險(xiǎn),起到正則化的效果。
Dropout就是在前向傳播的過(guò)程中,讓神經(jīng)元以一定的概率p停止工作,這樣可以使他不過(guò)多依賴特定特征組合,使模型泛化能力更強(qiáng)。
Dropout流程
首先以一定概率刪掉該層的神經(jīng)元,得到新的神經(jīng)網(wǎng)絡(luò)。再把輸入x輸入到新的神經(jīng)網(wǎng)絡(luò)中,得到損失函數(shù),反向傳播,更新這個(gè)新的神經(jīng)網(wǎng)絡(luò)的參數(shù)。最后恢復(fù)原始的神經(jīng)網(wǎng)絡(luò),在另一個(gè)batch的訓(xùn)練中重復(fù)前邊兩個(gè)步驟,直到訓(xùn)練完全結(jié)束。
在測(cè)試階段,由于不再以概率p將神經(jīng)元?jiǎng)h除,需要對(duì)權(quán)重W乘以概率參數(shù)p。保證該層輸出比訓(xùn)練階段不出現(xiàn)太大變化。
由于我們訓(xùn)練的時(shí)候會(huì)隨機(jī)的丟棄一些神經(jīng)元,但是預(yù)測(cè)的時(shí)候就沒(méi)辦法隨機(jī)丟棄了。如果丟棄一些神經(jīng)元,這會(huì)帶來(lái)結(jié)果不穩(wěn)定的問(wèn)題,也就是給定一個(gè)測(cè)試數(shù)據(jù),有時(shí)候輸出a有時(shí)候輸出b,結(jié)果不穩(wěn)定,這是實(shí)際系統(tǒng)不能接受的,用戶可能認(rèn)為模型預(yù)測(cè)不準(zhǔn)。那么一種”補(bǔ)償“的方案就是每個(gè)神經(jīng)元的權(quán)重都乘以一個(gè)p,這樣在“總體上”使得測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)是大致一樣的。比如一個(gè)神經(jīng)元的輸出是x,那么在訓(xùn)練的時(shí)候它有p的概率參與訓(xùn)練,(1-p)的概率丟棄,那么它輸出的期望是px+(1-p)0=px。因此測(cè)試的時(shí)候把這個(gè)神經(jīng)元的權(quán)重乘以p可以得到同樣的期望。
Dropout位置
Dropout一般放到全連接層之后,激活函數(shù)之前,防止過(guò)擬合。一般不會(huì)放到卷基層后,由于卷基層參數(shù)較少,一般使用BatchNorm即可。
Dropout防止過(guò)擬合的原因
- 取平均。Dropout掉不同的神經(jīng)元,就像在訓(xùn)練不同的神經(jīng)網(wǎng)絡(luò)。不同的網(wǎng)絡(luò)會(huì)產(chǎn)生不同的過(guò)擬合,Dropout相當(dāng)于去平均,防止過(guò)擬合。
- 減少神經(jīng)元之間復(fù)雜的共適關(guān)系。Dropout可使兩個(gè)神經(jīng)元不一定每次都在同一個(gè)Dropout網(wǎng)絡(luò)中出現(xiàn),可以防止某些特征僅僅在其他特定特征出現(xiàn)時(shí)才發(fā)揮作用。使神經(jīng)網(wǎng)絡(luò)不會(huì)對(duì)特定的特征片段過(guò)于敏感,防止某些特征丟失導(dǎo)致的性能下降。
源碼中的Dropout
def dropout(x, level):
if level < 0. or level >= 1: #level是概率值,必須在0~1之間
raise ValueError('Dropout level must be in interval [0, 1[.')
retain_prob = 1. - level
# 我們通過(guò)binomial函數(shù),生成與x一樣的維數(shù)向量。binomial函數(shù)就像拋硬幣一樣,我們可以把每個(gè)神經(jīng)元當(dāng)做拋硬幣一樣
# 硬幣 正面的概率為p,n表示每個(gè)神經(jīng)元試驗(yàn)的次數(shù)
# 因?yàn)槲覀兠總€(gè)神經(jīng)元只需要拋一次就可以了所以n=1,size參數(shù)是我們有多少個(gè)硬幣。
random_tensor = np.random.binomial(n=1, p=retain_prob, size=x.shape) #即將生成一個(gè)0、1分布的向量,0表示這個(gè)神經(jīng)元被屏蔽,不工作了,也就是dropout了
print(random_tensor)
x *= random_tensor
print(x)
x /= retain_prob
return x
計(jì)算CNN輸出,參數(shù)量
W為輸入的長(zhǎng)度。
F為卷積核長(zhǎng)度。
P為padding長(zhǎng)度。
S為stride。
當(dāng)padding = “VALID”時(shí),
這里表示的是向下取整再加1。
當(dāng)padding='SAME'時(shí),
向上取整。
textRNN網(wǎng)絡(luò)結(jié)構(gòu)
textRNN比較簡(jiǎn)單,先是講單詞word embedding,然后輸入到一個(gè)BiLSTM結(jié)構(gòu)中,結(jié)下來(lái)有兩種處理方式:1是講每個(gè)LSTM的最后一個(gè)隱藏狀態(tài)concat到一起;2是將每個(gè)時(shí)間步的兩個(gè)LSTM隱藏狀態(tài)concat到一起,再將所有時(shí)間步對(duì)其取平均值。最終連接個(gè)全連接+softmax。
textCNN網(wǎng)絡(luò)結(jié)構(gòu)
將文本當(dāng)作單通道圖片處理,即輸入為(Batch_size, sequence_length, embedding_dim, 1),然后選取卷積: (2, embedding_dim), (3, embedding_dim), (4, embedding_dim),每個(gè)卷積選兩個(gè)卷積核。再將卷機(jī)后的結(jié)果做1維的maxpooling,再concat到一起,輸入的softmax中,得到最終分類。
self-attention中為什么除以根號(hào)dk
self-attention公示:
是詞向量/隱藏層的維度。
- 一個(gè)原因是除一個(gè)數(shù),方式輸入到softmax的值過(guò)大,導(dǎo)致偏導(dǎo)數(shù)趨近0.
- 使QK的結(jié)果滿足期望為0,方差為1的分布,類似于歸一化。
Word2Vec
Skip Gram
Skip-gram的思想是利用目標(biāo)詞預(yù)測(cè)背景詞。其輸入是一個(gè)單詞,輸出是這個(gè)單詞的背景詞。
CBOW
全程是continuous bag of words。其本質(zhì)是通過(guò)context word預(yù)測(cè)targetword,通過(guò)背景詞預(yù)測(cè)目標(biāo)詞。
如上圖所示,context word包含C個(gè)單詞,分別是target word的臨近的C個(gè)單詞,將C個(gè)單詞輸出相加再除以C,得到target word的隱藏層,在對(duì)隱藏層進(jìn)行輸出。
Hierarchical Softmax
在NLP任務(wù)重,Vocabrary往往會(huì)很大,因此在尋找概率最大的輸出時(shí),需要對(duì)一個(gè)很大的向量進(jìn)行Softmax,Hierarchical Softmax可以解決計(jì)算量過(guò)大的問(wèn)題。
Huffman Tree
哈夫曼是一種帶權(quán)路徑長(zhǎng)度最短的二叉樹(shù),也稱為最優(yōu)二叉樹(shù)。
首先根據(jù)詞頻構(gòu)建哈夫曼樹(shù),這樣做的優(yōu)點(diǎn)是高頻詞距離跟節(jié)點(diǎn)較近,低頻次距離跟節(jié)點(diǎn)較遠(yuǎn)。
根據(jù)哈夫曼樹(shù),給出單詞w的條件概率公式:
這里邊有幾個(gè)重要的概念需要解釋,其中為從跟節(jié)點(diǎn)到單詞w所在的葉子結(jié)點(diǎn)的節(jié)點(diǎn)個(gè)數(shù),
表示單詞在該節(jié)點(diǎn)的編碼(0, 1),注意這是從2開(kāi)始的,因?yàn)楦?jié)點(diǎn)沒(méi)有編碼。
對(duì)于邏輯回歸,我們可以用指數(shù)的方式將兩項(xiàng)合并成一項(xiàng):
將上邊工時(shí)帶入到條件概率公式得到:
Negative Sampling
對(duì)于Vocabrary過(guò)大的問(wèn)題,還有一種解決方案就是Negative Sampling。一般情況下,在訓(xùn)練過(guò)程中,每個(gè)樣本會(huì)影響網(wǎng)絡(luò)的所有參數(shù),Negative Sampling的思想,就是每個(gè)樣本只更新部分參數(shù),而非全部。假設(shè)輸入樣本為('A', 'B'),當(dāng)'A'經(jīng)過(guò)one-hot編碼,隱藏層,輸出為長(zhǎng)度為vocab_size大小的向量,而只有其中'B'對(duì)應(yīng)的單詞是我們希望的輸出,其他都是負(fù)樣本。Negative Sampling的思想是隨機(jī)選擇一小部分負(fù)樣本來(lái)更新權(quán)重。
那么如何選擇Negative Samples呢,根據(jù)一定的概率選出,而這個(gè)概率是和單詞的詞頻相關(guān)的。
ELMo
word2vec十分好用,但有一個(gè)缺陷就是,身為靜態(tài)詞向量,無(wú)法解決一詞多義的問(wèn)題。而ELMo是一種動(dòng)態(tài)詞向量,能根據(jù)語(yǔ)義生成詞向量,因此可以很好的應(yīng)對(duì)一詞多義問(wèn)題。
如上圖所示,ELMo的原理是將文本輸入到兩個(gè)BiLSTM中,并將輸入向量、中間層向量和輸出向量分別加權(quán)求和:
其中