Wide&Deep 網絡
推薦系統的主要挑戰之一,是同時解決 Memorization 和 Generalization。Wide & Deep 模型的核心思想是結合線性模型的記憶能力和 DNN 模型的泛化能力,從而提升整體模型性能。
記憶能力:理解為模型直接學習并利用歷史數據中物品或者特征的“共現頻率”的能力。協同過濾、邏輯回歸等簡單模型有較強的記憶能力。規則式的推薦:模型直接記住歷史數據的分布特點,并利用這些記憶進行推薦。
泛化能力:理解為模型傳遞特征的相關性,以及發掘洗刷甚至從未出現的稀有特征與最終標簽相關性的能力。矩陣分解比協同過濾的泛化能力強,因為矩陣分解引入了隱向量這樣的結構。
如上圖的網絡結構:結合 LR 和 DNN。
Wide 部分
wide部分其實就是一個簡單的線性模型 y = wx + b。x = [ x1, x2, ... , xd] 是d個feature的向量,w = [w1, w2, ... , wd]是模型的參數,b是bias。這里的d個feature包括原始的輸入feature和經過轉換的feature。
其中一種很重要的轉換feature叫做cross-product轉換。假如x1是性別,x1=0表示男性,x1=1表示女性。x2是愛好,x2=0表示不喜歡吃西瓜,x2=1表示喜歡吃西瓜。那么我們就可以利用x1和x2構造出新的feature,令x3=(x1 && x2),則x3=1表示是女生并且喜歡吃西瓜,如果不是女生或者不喜歡吃西瓜,則x3=0。這樣經過轉換的來的x3就是cross-product轉化。這樣轉換的目的是為了獲取交叉特征對預測目標的影響,給線性模型增加非線性。
Deep 部分
deep部分就是前饋神經網絡模型。對于高維稀疏的分類特征,首先會轉化成低維的稠密的向量,然后作為神經網hidden layers的輸入進行訓練。
參考文獻
DCN 模型
主要工作是針對 Wide&Deep 網絡中的 Wide 部分做了改進,在 Wide&Deep 網絡中,Wide 部分是個簡單的線性模型,其交叉特征任然需要人工設計,而 DCN 設計了專門的 cross 網絡用于自動學習高階交叉特征。
DCN模型結構如上圖所示,主要模塊為
- Embedding and Stacking Layer:輸入特征的處理,包括embedding處理和concat操作;
- Cross Network:特征交叉網絡,對特征進行顯式的有限階的高階交叉;
- Deep Network:DNN層網絡,對特征進行隱式的高階交叉;
- Combination Layer:結合特征交叉層和DNN層的隱層輸出,并輸入到預測層。
這里重點關注 Cross network,核心創新之處,它顯式的使用特征交叉操作,具體交叉公式為:是一個維度為 d 的列向量。
交叉層的可視化如圖所示:
原理解析:
參考文獻
NFM 模型
背景:
目前 Wide&Deep、DeepCross、FNN等網絡,都是將 concat 后的 embedding 向量輸入到多層網絡中學習特征的交叉,多層網絡能夠隱式的學習到任意高階的特征組合, 但是發現這種網絡結構有個明顯的弱點就是, 在 low level 采用 concat 的方式處理 embedding 向量帶給特征交叉的信息太少(證據就是 NCF 論文中的一個實驗), 而多層網絡的調優存在很多臭名昭著的困難, 比如梯度消失/爆炸, 過擬合等。作者在研究已有成果的時, 受 FNN 啟發, 發現如果在進入多層網絡之前能夠用 FM 進行預訓練, 得到一個 embedding 向量, 再進入 NN 中能夠得到更好的效果。
NFM 網絡結構
NFM 與 FM 網絡結構類似,只是在二階特征交叉中進行優化,NFM 預估的目標為:
接下來,主要闡述的設計,網絡結構如下:
Embedding Layer
與正常的 Embedding 層不同的是:使用原始的特征值乘以 Embedding vector,使得模型也可以處理 real valued feature。Bi-Interaction Layer
這一層其實是一個 pooling 操作,將多個向量轉化為一個向量,形式化如下:
的輸入是整個的嵌入向量,
,
是特征取值,
,
是特征對應的嵌入向量。中間的操作表示對應位置相乘。所以原始的嵌入向量任意兩個都進行組合,對應位置相乘結果得到一個新向量;然后把這些新向量相加,就得到了Bi-Interaction的輸出。這個輸出只有一個向量,維度仍然是K,可以理解為就是FM的二階輸出。
Hidden Layer
DNN 學習高階組合特征。Prediction Layer
最后一層隱藏層輸出,輸出層最后預測結果公式如下:
總結整個網絡,公式如下:
參考文獻
FNN 模型
FNN簡單概括:FM+MLP,如果再用一句稍顯復雜的話概括FNN那就是:FNN是一個兩階段訓練的模型,階段一先訓練一個FM模型得到每個field的embedding向量,階段二,基于階段一的embedding向量初始化MLP的embedding層,然后訓練一個MLP(DNN)。
模型結構圖如下:
重點關注下 Dense Real Layer 層,定義如下:
是一個全局的偏置標量,
是特征域,
是第 i 個特征域在FM中的參數向量,定義如下:
權重都是通過 FM 預訓練好的偏置項
和
分別初始化,也就是 Embedding 層的參數矩陣。
則可以表示為
,為one-hot編碼。
簡單理解如下,利用王喆《深度學習推薦系統》圖表示為:
優缺點
優點:每個特征的嵌入向量是預先采用FM模型訓練的,因此在學習DNN模型時,訓練開銷降低,模型能夠更快達到收斂。
缺點:
- Embedding 的參數受 FM 的影響,不一定準確。
- 預訓練階段增加了計算復雜度,訓練效率低。
- FNN 只能學習到高階的組合特征;模型中沒有對低階特征建模。
參考文獻
DeepFM 網絡
Wide & Deep推薦模型的升級版。不同點如下:
- wide模型部分由LR替換為FM。FM模型具有自動學習交叉特征的能力,避免了原始Wide & Deep模型中淺層部分人工特征工程的工作。
- 共享原始輸入特征。DeepFM模型的原始特征將作為FM和Deep模型部分的共同輸入,保證模型特征的準確與一致。
模型輸入,這是一個 d 維向量,其中
即為第 i 個field的特征表示,如果是類別,則為one-hot編碼后的向量,連續值則為它本身。然后對其進行 Embedding,連續值離散化后可進行 Embedding。
接著 FM 層即為embedding后結果的內積和一次項的和,最后一層sigmoid后再輸出結果。Embedding內積與FM模型等價!
由于進行了one-hot編碼,所以對應的只有一個值為1,其余的都為0,則:
若兩個 field 做內積,假設非0的那一列為c和d則:
參考文獻
xDeepFM 模型
參考文獻
DeepFFM 模型
2. DeepCrossing 網絡
2016年,微軟提出Deep Crossing模型,旨在解決特征工程中特征組合的難題,降低人力特征組合的時間開銷,通過模型自動學習特征的組合方式,也能達到不錯的效果,且在各種任務中表現出較好的穩定性。
利用殘差網絡進行特征處理。
3. PNN 網絡
作者認為在embedding輸入到MLP之后學習的交叉特征表達并不充分,提出了一種product layer的思想,既基于乘法的運算來體現體征交叉的DNN網絡結構。在 CTR 預估中,認為特征關系屬于“且”關系,而非“加”關系。
Product Layer 層
product layer 可以分成兩個部分,一部分是線性部分 lz,一部分是非線性部分 lp。二者的形式如下:
其中 z 是線性信號向量,因此直接用 embedding 層得到,然后通過矩陣的點乘(相乘求和)即可。
對于 p 而言,有兩種方式:一種是 IPNN,另一種是 OPNN;
IPNN 的示意圖如下所示:內積
OPNN 的示意圖如下所示:矩陣乘
參考文獻:
4. DIN 網絡結構
4.1 Base 版本
??Base 版本的模型:一般的思路為,先通過 one-hot、multi-hot 得到高維離散特征,然后通過 Embedding 層將高維離散特征轉換為固定長度的連續特征,然后通過多個全連接層,經過 sigmoid 函數轉化為 0-1 值,代表點擊的概率。
??上圖中, user feature groups
代表著用戶的歷史購買記錄,存在著多條記錄。mutil-hot 在 Embedding 之后會得到多個向量信息, 融合層中進行 element-wise +
操作,其實就是 sum-pooling
,統一為固定長度的連續特征。
4.2 DIN 網絡
Base 模型在進行融合的時候:對用戶的歷史行為同等對待,存在問題。
為什么引入注意力機制?
難道僅僅是通過觀察歷史數據拍腦袋決定的么?當然不是,如果不用 Local activation 的話,將會出現下面的情況:假設用戶的興趣的 Embedding 是
,候選廣告的 Embedding 是
,用戶興趣和候選的廣告的相關性可以寫作
。如果沒有 Local activation 機制的話,那么同一個用戶對于不同的廣告,Vu 都是相同的。舉例來說,如果有兩個廣告 A 和 B,用戶興趣和 A,B 的相似性都很高,那么在 Va 和 Vb 連線上的廣告都會有很高的相似性。這樣的限制使得模型非常難學習到有效的用戶和廣告的 embedidng 表示。
引入Activation Unit
之后,用戶的興趣表示計算如下:
加入了注意力機制,從過去
的加和變成了
的加權和。重點在于
采用什么比較好,傳統的 Attention 機制,通常是點積或者 MLP。上圖右上角的 activation unit:首先是把 u 和 v 以及 u v的 element wise 差值向量合并起來作為輸入,然后喂給全連接層,最后得出權重。