推薦系統-深度模型

Wide&Deep 網絡

推薦系統的主要挑戰之一,是同時解決 Memorization 和 Generalization。Wide & Deep 模型的核心思想是結合線性模型的記憶能力和 DNN 模型的泛化能力,從而提升整體模型性能。

記憶能力:理解為模型直接學習并利用歷史數據中物品或者特征的“共現頻率”的能力。協同過濾、邏輯回歸等簡單模型有較強的記憶能力。規則式的推薦:模型直接記住歷史數據的分布特點,并利用這些記憶進行推薦。
泛化能力:理解為模型傳遞特征的相關性,以及發掘洗刷甚至從未出現的稀有特征與最終標簽相關性的能力。矩陣分解比協同過濾的泛化能力強,因為矩陣分解引入了隱向量這樣的結構。

如上圖的網絡結構:結合 LR 和 DNN。

Wide 部分
wide部分其實就是一個簡單的線性模型 y = wx + b。x = [ x1, x2, ... , xd] 是d個feature的向量,w = [w1, w2, ... , wd]是模型的參數,b是bias。這里的d個feature包括原始的輸入feature和經過轉換的feature。

其中一種很重要的轉換feature叫做cross-product轉換。假如x1是性別,x1=0表示男性,x1=1表示女性。x2是愛好,x2=0表示不喜歡吃西瓜,x2=1表示喜歡吃西瓜。那么我們就可以利用x1和x2構造出新的feature,令x3=(x1 && x2),則x3=1表示是女生并且喜歡吃西瓜,如果不是女生或者不喜歡吃西瓜,則x3=0。這樣經過轉換的來的x3就是cross-product轉化。這樣轉換的目的是為了獲取交叉特征對預測目標的影響,給線性模型增加非線性。

Deep 部分
deep部分就是前饋神經網絡模型。對于高維稀疏的分類特征,首先會轉化成低維的稠密的向量,然后作為神經網hidden layers的輸入進行訓練。

參考文獻

DCN 模型

主要工作是針對 Wide&Deep 網絡中的 Wide 部分做了改進,在 Wide&Deep 網絡中,Wide 部分是個簡單的線性模型,其交叉特征任然需要人工設計,而 DCN 設計了專門的 cross 網絡用于自動學習高階交叉特征。

DCN模型結構如上圖所示,主要模塊為

  • Embedding and Stacking Layer:輸入特征的處理,包括embedding處理和concat操作;
  • Cross Network:特征交叉網絡,對特征進行顯式的有限階的高階交叉;
  • Deep Network:DNN層網絡,對特征進行隱式的高階交叉;
  • Combination Layer:結合特征交叉層和DNN層的隱層輸出,并輸入到預測層。

這里重點關注 Cross network,核心創新之處,它顯式的使用特征交叉操作,具體交叉公式為:x_0, w_l,b_l是一個維度為 d 的列向量。
x_{l+1}=x_0x_l^Tw_l + b_l + x_l = f(x_l,w_l,b_l)+x_l

交叉層的可視化如圖所示:

原理解析:

參考文獻

NFM 模型

背景:

目前 Wide&Deep、DeepCross、FNN等網絡,都是將 concat 后的 embedding 向量輸入到多層網絡中學習特征的交叉,多層網絡能夠隱式的學習到任意高階的特征組合, 但是發現這種網絡結構有個明顯的弱點就是, 在 low level 采用 concat 的方式處理 embedding 向量帶給特征交叉的信息太少(證據就是 NCF 論文中的一個實驗), 而多層網絡的調優存在很多臭名昭著的困難, 比如梯度消失/爆炸, 過擬合等。作者在研究已有成果的時, 受 FNN 啟發, 發現如果在進入多層網絡之前能夠用 FM 進行預訓練, 得到一個 embedding 向量, 再進入 NN 中能夠得到更好的效果。

NFM 網絡結構

NFM 與 FM 網絡結構類似,只是在二階特征交叉中進行優化,NFM 預估的目標為:
\hat{y}_{N F M}(\mathbf{x})=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+f(\mathbf{x})

接下來,主要闡述f(x)的設計,網絡結構如下:

  1. Embedding Layer
    與正常的 Embedding 層不同的是:使用原始的特征值乘以 Embedding vector,使得模型也可以處理 real valued feature。

  2. Bi-Interaction Layer
    這一層其實是一個 pooling 操作,將多個向量轉化為一個向量,形式化如下:
    f_{B I}\left(\mathcal{V}_{x}\right)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}_{i} \odot x_{j} \mathbf{v}_{j}
    f_{BI}的輸入是整個的嵌入向量,x_ix_j是特征取值,v_iv_j是特征對應的嵌入向量。中間的操作表示對應位置相乘。所以原始的嵌入向量任意兩個都進行組合,對應位置相乘結果得到一個新向量;然后把這些新向量相加,就得到了Bi-Interaction的輸出。這個輸出只有一個向量,維度仍然是K,可以理解為就是FM的二階輸出。

  3. Hidden Layer
    DNN 學習高階組合特征。

  4. Prediction Layer
    最后一層隱藏層輸出Z_L,輸出層最后預測結果公式如下:
    f(x) = h^TZ_L

總結整個網絡,公式如下:
\begin{aligned} \hat{y}_{N F M}(\mathbf{x}) & =w_{0}+\sum_{i=1}^{n} w_{i} x_{i} +\mathbf{h}^{T} \sigma_{L}\left(\mathbf{W}_{L}\left(\ldots \sigma_{1}\left(\mathbf{W}_{1} f_{B I}\left(\mathcal{V}_{x}\right)+\mathbf{b}_{1}\right) \ldots\right)+\mathbf{b}_{L}\right) \end{aligned}

參考文獻

FNN 模型

FNN簡單概括:FM+MLP,如果再用一句稍顯復雜的話概括FNN那就是:FNN是一個兩階段訓練的模型,階段一先訓練一個FM模型得到每個field的embedding向量,階段二,基于階段一的embedding向量初始化MLP的embedding層,然后訓練一個MLP(DNN)。

模型結構圖如下:

FNN模型圖

重點關注下 Dense Real Layer 層,z定義如下:
z = (w_0, z_1,z_2,...,z_i,...,z_n)

w_0是一個全局的偏置標量,n是特征域,z_i是第 i 個特征域在FM中的參數向量,定義如下:
z_i = W_{0}^{i}·x[start_i:end_i]=(w_i,v_i^1,v_i^2,...,v_i^K)

權重W_{0}^{i}都是通過 FM 預訓練好的偏置項w_iv_i分別初始化,也就是 Embedding 層的參數矩陣。Field_i則可以表示為x[start_i:end_i],為one-hot編碼。

簡單理解如下,利用王喆《深度學習推薦系統》圖表示為:

優缺點
優點:每個特征的嵌入向量是預先采用FM模型訓練的,因此在學習DNN模型時,訓練開銷降低,模型能夠更快達到收斂。

缺點:

  • Embedding 的參數受 FM 的影響,不一定準確。
  • 預訓練階段增加了計算復雜度,訓練效率低。
  • FNN 只能學習到高階的組合特征;模型中沒有對低階特征建模。

參考文獻

DeepFM 網絡

Wide & Deep推薦模型的升級版。不同點如下:

  1. wide模型部分由LR替換為FM。FM模型具有自動學習交叉特征的能力,避免了原始Wide & Deep模型中淺層部分人工特征工程的工作。
  2. 共享原始輸入特征。DeepFM模型的原始特征將作為FM和Deep模型部分的共同輸入,保證模型特征的準確與一致。

模型輸入x=[x_{filed1},x_{field2},...,x_{fieldm}],這是一個 d 維向量,其中x_{fieldi}即為第 i 個field的特征表示,如果是類別,則為one-hot編碼后的向量,連續值則為它本身。然后對其進行 Embedding,連續值離散化后可進行 Embedding。

接著 FM 層即為embedding后結果的內積和一次項的和,最后一層sigmoid后再輸出結果。Embedding內積與FM模型等價!
由于進行了one-hot編碼,所以對應的x_{filedi}只有一個值為1,其余的都為0,則:
V_{\text {fieldi }} \times \mathbf{x}_{\text {fieldi }}=\left[\begin{array}{cccc} v_{11} & v_{21} & \cdots & v_{m 1} \\ v_{12} & v_{22} & \cdots & v_{m 2} \\ \vdots & \vdots & \ddots & \vdots \\ v_{1 k} & v_{2 k} & \cdots & v_{m d} \end{array}\right] \times\left[\begin{array}{c} 0 \\ \vdots \\ 1 \\ \vdots \end{array}\right]=\left[\begin{array}{c} v_{c 1} \\ v_{c 2} \\ \vdots \\ v_{c k} \end{array}\right] x_{c}=V_{c} x_{c}
若兩個 field 做內積,假設非0的那一列為c和d則:
(V_{fieldi} x_{fieldi})(V_{fieldj} x_{fieldj})=(V_c*V_d)x_cx_d

參考文獻

xDeepFM 模型

參考文獻

DeepFFM 模型

2. DeepCrossing 網絡

2016年,微軟提出Deep Crossing模型,旨在解決特征工程中特征組合的難題,降低人力特征組合的時間開銷,通過模型自動學習特征的組合方式,也能達到不錯的效果,且在各種任務中表現出較好的穩定性。

利用殘差網絡進行特征處理。

3. PNN 網絡

作者認為在embedding輸入到MLP之后學習的交叉特征表達并不充分,提出了一種product layer的思想,既基于乘法的運算來體現體征交叉的DNN網絡結構。在 CTR 預估中,認為特征關系屬于“且”關系,而非“加”關系。

Product Layer 層
product layer 可以分成兩個部分,一部分是線性部分 lz,一部分是非線性部分 lp。二者的形式如下:

其中 z 是線性信號向量,因此直接用 embedding 層得到,然后通過矩陣的點乘(相乘求和)即可。

對于 p 而言,有兩種方式:一種是 IPNN,另一種是 OPNN;
IPNN 的示意圖如下所示:內積

OPNN 的示意圖如下所示:矩陣乘

參考文獻:

4. DIN 網絡結構

4.1 Base 版本

??Base 版本的模型:一般的思路為,先通過 one-hot、multi-hot 得到高維離散特征,然后通過 Embedding 層將高維離散特征轉換為固定長度的連續特征,然后通過多個全連接層,經過 sigmoid 函數轉化為 0-1 值,代表點擊的概率。

??上圖中, user feature groups 代表著用戶的歷史購買記錄,存在著多條記錄。mutil-hot 在 Embedding 之后會得到多個向量信息, 融合層中進行 element-wise +操作,其實就是 sum-pooling,統一為固定長度的連續特征。

4.2 DIN 網絡

Base 模型在進行融合的時候:對用戶的歷史行為同等對待,存在問題。

為什么引入注意力機制?

難道僅僅是通過觀察歷史數據拍腦袋決定的么?當然不是,如果不用 Local activation 的話,將會出現下面的情況:假設用戶的興趣的 Embedding 是 V_u,候選廣告的 Embedding 是 V_a,用戶興趣和候選的廣告的相關性可以寫作 F(U,A) = V_a * V_u。如果沒有 Local activation 機制的話,那么同一個用戶對于不同的廣告,Vu 都是相同的。舉例來說,如果有兩個廣告 A 和 B,用戶興趣和 A,B 的相似性都很高,那么在 Va 和 Vb 連線上的廣告都會有很高的相似性。這樣的限制使得模型非常難學習到有效的用戶和廣告的 embedidng 表示。

引入Activation Unit之后,用戶的興趣表示計算如下:
V_{u}=f\left(V_{a}\right)=\sum_{i=1}^{N} w_{i} * V_{i}=\sum_{i=1}^{N} g\left(V_{i}, V_{a}\right) * V_{i}

加入了注意力機制,V_u從過去V_i的加和變成了V_i的加權和。重點在于 g(V_i, V_a) 采用什么比較好,傳統的 Attention 機制,通常是點積或者 MLP。上圖右上角的 activation unit:首先是把 u 和 v 以及 u v的 element wise 差值向量合并起來作為輸入,然后喂給全連接層,最后得出權重。

參考文獻

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,797評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,179評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,628評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,642評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,444評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,948評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,040評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,185評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,717評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,794評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,418評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,414評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,750評論 2 370

推薦閱讀更多精彩內容