推薦系統-深度模型

Wide&Deep 網絡

推薦系統的主要挑戰之一，是同時解決 Memorization 和 Generalization。Wide & Deep 模型的核心思想是結合線性模型的記憶能力和 DNN 模型的泛化能力，從而提升整體模型性能。

記憶能力：理解為模型直接學習并利用歷史數據中物品或者特征的“共現頻率”的能力。協同過濾、邏輯回歸等簡單模型有較強的記憶能力。規則式的推薦：模型直接記住歷史數據的分布特點，并利用這些記憶進行推薦。
泛化能力：理解為模型傳遞特征的相關性，以及發掘洗刷甚至從未出現的稀有特征與最終標簽相關性的能力。矩陣分解比協同過濾的泛化能力強，因為矩陣分解引入了隱向量這樣的結構。

如上圖的網絡結構：結合 LR 和 DNN。

Wide 部分
wide部分其實就是一個簡單的線性模型 y = wx + b。x = [ x1, x2, ... , xd] 是d個feature的向量，w = [w1, w2, ... , wd]是模型的參數，b是bias。這里的d個feature包括原始的輸入feature和經過轉換的feature。

其中一種很重要的轉換feature叫做cross-product轉換。假如x1是性別，x1=0表示男性，x1=1表示女性。x2是愛好，x2=0表示不喜歡吃西瓜，x2=1表示喜歡吃西瓜。那么我們就可以利用x1和x2構造出新的feature，令x3=(x1 && x2)，則x3=1表示是女生并且喜歡吃西瓜，如果不是女生或者不喜歡吃西瓜，則x3=0。這樣經過轉換的來的x3就是cross-product轉化。這樣轉換的目的是為了獲取交叉特征對預測目標的影響，給線性模型增加非線性。

Deep 部分
deep部分就是前饋神經網絡模型。對于高維稀疏的分類特征，首先會轉化成低維的稠密的向量，然后作為神經網hidden layers的輸入進行訓練。

參考文獻

[深度模型] 經典Wide & Deep模型架構介紹
詳解 Wide & Deep 結構背后的動機

DCN 模型

主要工作是針對 Wide&Deep 網絡中的 Wide 部分做了改進，在 Wide&Deep 網絡中，Wide 部分是個簡單的線性模型，其交叉特征任然需要人工設計，而 DCN 設計了專門的 cross 網絡用于自動學習高階交叉特征。

DCN模型結構如上圖所示，主要模塊為

Embedding and Stacking Layer：輸入特征的處理，包括embedding處理和concat操作；
Cross Network：特征交叉網絡，對特征進行顯式的有限階的高階交叉；
Deep Network：DNN層網絡，對特征進行隱式的高階交叉；
Combination Layer：結合特征交叉層和DNN層的隱層輸出，并輸入到預測層。

這里重點關注 Cross network，核心創新之處，它顯式的使用特征交叉操作，具體交叉公式為： $x_0, w_l,b_l$ 是一個維度為 d 的列向量。
$x_{l+1}=x_0x_l^Tw_l + b_l + x_l = f(x_l,w_l,b_l)+x_l$

交叉層的可視化如圖所示：

原理解析：

參考文獻

Google深度學習CTR預估模型DCN：顯式高階交叉特征學習
揭秘 Deep & Cross : 如何自動構造高階交叉特征

NFM 模型

背景：

目前 Wide&Deep、DeepCross、FNN等網絡，都是將 concat 后的 embedding 向量輸入到多層網絡中學習特征的交叉，多層網絡能夠隱式的學習到任意高階的特征組合, 但是發現這種網絡結構有個明顯的弱點就是, 在 low level 采用 concat 的方式處理 embedding 向量帶給特征交叉的信息太少(證據就是 NCF 論文中的一個實驗), 而多層網絡的調優存在很多臭名昭著的困難, 比如梯度消失/爆炸, 過擬合等。作者在研究已有成果的時, 受 FNN 啟發, 發現如果在進入多層網絡之前能夠用 FM 進行預訓練, 得到一個 embedding 向量, 再進入 NN 中能夠得到更好的效果。

NFM 網絡結構

NFM 與 FM 網絡結構類似，只是在二階特征交叉中進行優化，NFM 預估的目標為：
$\hat{y}_{N F M}(\mathbf{x})=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+f(\mathbf{x})$

接下來，主要闡述 $f(x)$ 的設計，網絡結構如下：

Embedding Layer
與正常的 Embedding 層不同的是：使用原始的特征值乘以 Embedding vector，使得模型也可以處理 real valued feature。
Bi-Interaction Layer
這一層其實是一個 pooling 操作，將多個向量轉化為一個向量，形式化如下：
$f_{B I}\left(\mathcal{V}_{x}\right)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}_{i} \odot x_{j} \mathbf{v}_{j}$
$f_{BI}$ 的輸入是整個的嵌入向量， $x_i$ ， $x_j$ 是特征取值， $v_i$ ， $v_j$ 是特征對應的嵌入向量。中間的操作表示對應位置相乘。所以原始的嵌入向量任意兩個都進行組合，對應位置相乘結果得到一個新向量；然后把這些新向量相加，就得到了Bi-Interaction的輸出。這個輸出只有一個向量,維度仍然是K，可以理解為就是FM的二階輸出。
Hidden Layer
DNN 學習高階組合特征。
Prediction Layer
最后一層隱藏層輸出 $Z_L$ ，輸出層最后預測結果公式如下：
$f(x) = h^TZ_L$

總結整個網絡，公式如下：
$\begin{aligned} \hat{y}_{N F M}(\mathbf{x}) & =w_{0}+\sum_{i=1}^{n} w_{i} x_{i} +\mathbf{h}^{T} \sigma_{L}\left(\mathbf{W}_{L}\left(\ldots \sigma_{1}\left(\mathbf{W}_{1} f_{B I}\left(\mathcal{V}_{x}\right)+\mathbf{b}_{1}\right) \ldots\right)+\mathbf{b}_{L}\right) \end{aligned}$

參考文獻

（讀論文）推薦系統之ctr預估-NFM模型解析
NFM 模型 (論文精讀)--廣告&推薦

FNN 模型

FNN簡單概括：FM+MLP，如果再用一句稍顯復雜的話概括FNN那就是：FNN是一個兩階段訓練的模型，階段一先訓練一個FM模型得到每個field的embedding向量，階段二，基于階段一的embedding向量初始化MLP的embedding層，然后訓練一個MLP（DNN）。

模型結構圖如下：

FNN模型圖

重點關注下 Dense Real Layer 層， $z$ 定義如下：
$z = (w_0, z_1,z_2,...,z_i,...,z_n)$

$w_0$ 是一個全局的偏置標量， $n$ 是特征域， $z_i$ 是第 i 個特征域在FM中的參數向量，定義如下：
$z_i = W_{0}^{i}·x[start_i:end_i]=(w_i,v_i^1,v_i^2,...,v_i^K)$

權重 $W_{0}^{i}$ 都是通過 FM 預訓練好的偏置項 $w_i$ 和 $v_i$ 分別初始化，也就是 Embedding 層的參數矩陣。 $Field_i$ 則可以表示為 $x[start_i:end_i]$ ，為one-hot編碼。

簡單理解如下，利用王喆《深度學習推薦系統》圖表示為：

優缺點
優點：每個特征的嵌入向量是預先采用FM模型訓練的，因此在學習DNN模型時，訓練開銷降低，模型能夠更快達到收斂。

缺點：

Embedding 的參數受 FM 的影響，不一定準確。
預訓練階段增加了計算復雜度，訓練效率低。
FNN 只能學習到高階的組合特征；模型中沒有對低階特征建模。

參考文獻

推薦系統（八）FNN模型（FM+MLP=FNN）

DeepFM 網絡

Wide & Deep推薦模型的升級版。不同點如下：

wide模型部分由LR替換為FM。FM模型具有自動學習交叉特征的能力，避免了原始Wide & Deep模型中淺層部分人工特征工程的工作。
共享原始輸入特征。DeepFM模型的原始特征將作為FM和Deep模型部分的共同輸入，保證模型特征的準確與一致。

模型輸入 $x=[x_{filed1},x_{field2},...,x_{fieldm}]$ ，這是一個 d 維向量，其中 $x_{fieldi}$ 即為第 i 個field的特征表示，如果是類別，則為one-hot編碼后的向量，連續值則為它本身。然后對其進行 Embedding，連續值離散化后可進行 Embedding。

接著 FM 層即為embedding后結果的內積和一次項的和，最后一層sigmoid后再輸出結果。Embedding內積與FM模型等價！
由于進行了one-hot編碼，所以對應的 $x_{filedi}$ 只有一個值為1，其余的都為0，則：
$V_{\text {fieldi }} \times \mathbf{x}_{\text {fieldi }}=\left[\begin{array}{cccc} v_{11} & v_{21} & \cdots & v_{m 1} \\ v_{12} & v_{22} & \cdots & v_{m 2} \\ \vdots & \vdots & \ddots & \vdots \\ v_{1 k} & v_{2 k} & \cdots & v_{m d} \end{array}\right] \times\left[\begin{array}{c} 0 \\ \vdots \\ 1 \\ \vdots \end{array}\right]=\left[\begin{array}{c} v_{c 1} \\ v_{c 2} \\ \vdots \\ v_{c k} \end{array}\right] x_{c}=V_{c} x_{c}$
若兩個 field 做內積，假設非0的那一列為c和d則：
$(V_{fieldi} x_{fieldi})(V_{fieldj} x_{fieldj})=(V_c*V_d)x_cx_d$

參考文獻

DeepFM模型CTR預估理論與實戰

xDeepFM 模型

參考文獻

xDeepFM：名副其實的 ”Deep” Factorization Machine
（讀論文）推薦系統之ctr預估-XDeepFM模型解析

DeepFFM 模型

2. DeepCrossing 網絡

2016年，微軟提出Deep Crossing模型，旨在解決特征工程中特征組合的難題，降低人力特征組合的時間開銷，通過模型自動學習特征的組合方式，也能達到不錯的效果，且在各種任務中表現出較好的穩定性。

利用殘差網絡進行特征處理。

3. PNN 網絡

作者認為在embedding輸入到MLP之后學習的交叉特征表達并不充分，提出了一種product layer的思想，既基于乘法的運算來體現體征交叉的DNN網絡結構。在 CTR 預估中，認為特征關系屬于“且”關系，而非“加”關系。

Product Layer 層
product layer 可以分成兩個部分，一部分是線性部分 lz，一部分是非線性部分 lp。二者的形式如下：

其中 z 是線性信號向量，因此直接用 embedding 層得到，然后通過矩陣的點乘（相乘求和）即可。

對于 p 而言，有兩種方式：一種是 IPNN，另一種是 OPNN；
IPNN 的示意圖如下所示：內積

OPNN 的示意圖如下所示：矩陣乘

參考文獻：

推薦系統遇上深度學習(六)--PNN模型理論和實踐

4. DIN 網絡結構

4.1 Base 版本

??Base 版本的模型：一般的思路為，先通過 one-hot、multi-hot 得到高維離散特征，然后通過 Embedding 層將高維離散特征轉換為固定長度的連續特征，然后通過多個全連接層，經過 sigmoid 函數轉化為 0-1 值，代表點擊的概率。

??上圖中， user feature groups 代表著用戶的歷史購買記錄，存在著多條記錄。mutil-hot 在 Embedding 之后會得到多個向量信息，融合層中進行 element-wise +操作，其實就是 sum-pooling，統一為固定長度的連續特征。

4.2 DIN 網絡

Base 模型在進行融合的時候：對用戶的歷史行為同等對待，存在問題。

為什么引入注意力機制？

難道僅僅是通過觀察歷史數據拍腦袋決定的么？當然不是，如果不用 Local activation 的話，將會出現下面的情況：假設用戶的興趣的 Embedding 是 $V_u$ ，候選廣告的 Embedding 是 $V_a$ ，用戶興趣和候選的廣告的相關性可以寫作 $F(U,A) = V_a * V_u$ 。如果沒有 Local activation 機制的話，那么同一個用戶對于不同的廣告，Vu 都是相同的。舉例來說，如果有兩個廣告 A 和 B，用戶興趣和 A，B 的相似性都很高，那么在 Va 和 Vb 連線上的廣告都會有很高的相似性。這樣的限制使得模型非常難學習到有效的用戶和廣告的 embedidng 表示。

引入Activation Unit之后，用戶的興趣表示計算如下：
$V_{u}=f\left(V_{a}\right)=\sum_{i=1}^{N} w_{i} * V_{i}=\sum_{i=1}^{N} g\left(V_{i}, V_{a}\right) * V_{i}$

加入了注意力機制， $V_u$ 從過去 $V_i$ 的加和變成了 $V_i$ 的加權和。重點在于 $g(V_i, V_a)$ 采用什么比較好，傳統的 Attention 機制，通常是點積或者 MLP。上圖右上角的 activation unit：首先是把 u 和 v 以及 u v的 element wise 差值向量合并起來作為輸入，然后喂給全連接層，最后得出權重。

參考文獻

推薦系統遇上深度學習(十八)--探秘阿里之深度興趣網絡(DIN)淺析及實現
推薦系統中的注意力機制——阿里深度興趣網絡（DIN）
推薦系統（十一）阿里深度興趣網絡（一）：DIN模型（Deep Interest Network）

最后編輯于：2024.12.03 21:09:34

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

推薦系統-深度模型

推薦系統-深度模型

Wide&Deep 網絡

DCN 模型

NFM 模型

FNN 模型

DeepFM 網絡

xDeepFM 模型

DeepFFM 模型

2. DeepCrossing 網絡

3. PNN 網絡

4. DIN 網絡結構

4.1 Base 版本

4.2 DIN 網絡

參考文獻

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

推薦系統-深度模型

Wide&Deep 網絡

DCN 模型

NFM 模型

FNN 模型

DeepFM 網絡

xDeepFM 模型

DeepFFM 模型

2. DeepCrossing 網絡

3. PNN 網絡

4. DIN 網絡結構

4.1 Base 版本

4.2 DIN 網絡

參考文獻

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频