推薦系統(tǒng)模型1-FM模型族

FM 原理與特點

適用場景

FM模型可以用于回歸任務(wù)、二分類任務(wù)、排名任務(wù),特別是在數(shù)據(jù)稀疏場景下,效果明顯,廣泛應(yīng)用于推薦系統(tǒng)、廣告系統(tǒng)等領(lǐng)域。

  • 針對問題:
    FM(Factorization Machine)主要是為了解決數(shù)據(jù)稀疏的情況下,特征怎樣組合的問題。
    不同特征之間非獨立假設(shè)。


    image.png

    這個是它的原式,對于這個式子來說,前面兩項的復(fù)雜度是O(n),我們可以先忽略,重點來看最后一項。我們要做的就是通過數(shù)學(xué)公式的變形來對這一項進行化簡:

  • 求解


    image.png
image.png

關(guān)鍵:
image.png
image.png
image.png

image.png
  • 多維擴展
    > 2特征之間交互。

    image.png

    不好優(yōu)化,三重特征交叉過度稀疏,意義不大。

  • FM 實現(xiàn)
    libfm-C++的 自己看 懶得記。
    http://www.libfm.org/

FFM

就是在FM模型上加field,效果優(yōu)于FM,但是參數(shù)量太大,一般情況下不建議使用這種笨重的模型。


image.png

FFM是FM的一個特例,它更細致地刻畫了這個特征。首先它做了任意兩個特征組合,但是區(qū)別在于,怎么刻劃這個特征?FM只有一個向量,但FFM現(xiàn)在有兩個向量,也就意味著同一個特征,要和不同的fields進行組合的時候,會用不同的embedding去組合,它的參數(shù)量更多。對于一個特征來說,原先是一個vector,現(xiàn)在會拓成F個vector,F(xiàn)是特征fields的個數(shù),只要有跟其它特征的任意組合,就有一個vector來代表,這就是FFM的基本思想。
為了改進FFM參數(shù)量巨大不適合線上訓(xùn)練的特點,雙線性改進應(yīng)運而生。


image.png

原理:共享參數(shù)矩陣W。
三種組合W
image.png

最優(yōu)效果為組合方式。張俊林老師實驗結(jié)果顯示,隨著參數(shù)逐漸增多,雙線性FFM效果逐漸接近甚至趕超F(xiàn)FM。


image.png

結(jié)論與猜想:
  1. 共享參數(shù)矩陣,可以有效降低FFM的海量參數(shù),提升模型效率。
  2. 隨著共享矩陣參數(shù)逐漸復(fù)雜,模型效果提升就接近飽和,猜想可能存在一個共享參數(shù)矩陣的最優(yōu)邊界。

兩條演進路線:

image.png

一種,設(shè)計有效的FM新func使得有效捕捉二姐特征組合,第二種,討論高階特征。一般應(yīng)用中,第一種方式的收益,對于大多數(shù)場景,要優(yōu)于第二種,不是高階特征就一定有收益,除非高階特征的組合,對目標預(yù)測的效果有正向收益,否則,一般來說二階特征組合已經(jīng)滿足所需要的精度,且適合于實踐與部署。

DeepFM

image.png

基礎(chǔ)架構(gòu),基于W&D,LR替換為FM由人工交叉走向特征自動交叉。
FM部分:


image.png

image.png

sparsefeature做addition,共享的embedding之后的特征做隱向量點積。
Deep部分:


image.png

稀疏特征轉(zhuǎn)換為低維稠密向量。通常隨機初始化,
DeepCTR的方式,通過logistic loss function分別訓(xùn)練,合并輸出。

實際上由三部分構(gòu)成:linear+Second-order Interaction+DNN

xDeepFM 與特征交叉三巨頭

特征交叉三巨頭


image.png

image.png

理論上,XDeepFM更接近于DCN的模型結(jié)構(gòu),是DCN模型結(jié)構(gòu)的改進,模型由三部分組成:linear+DNN+CIN
解決元素級特征交互中bit-wise方式,模型訓(xùn)練域概念丟失問題,如圖所示
DCN的cross方式,先將field 的向量橫向 concat,作為一個輸入向量 x0,然后每層特征都會與 x0做內(nèi)積,得到更高一階的特征交互(DCN的Xl層輸出與Xl+1層輸出進行殘差擬合)。


image.png
image.png

如何改進?
CIN:


image.png
image.png
image.png

CIN與corss的主要差異:

  1. 采用vector-wise的方式使同field特征權(quán)重得以保持一致。
  2. 在第l層,cross包含從1~l+1層的所有特征組合,而CIN只包含l+1層的特征組合,每層輸出中間結(jié)果,然后X0再與每層做Hadamard乘積。
  • 幾個問題
  1. CIN與FM的關(guān)系?
    FM為CIN單層且壓縮矩陣W恒為1的特殊情況CIN。
  2. W這個鬼東西貌似是關(guān)鍵?怎么求?


    image.png

    image.png

    求解方式:一維卷積,deepctr里面實現(xiàn)可以去看類CIN下的call。
    核心思想就是利用H^k+1 個尺寸為 m*H^k 的卷積核生成下一層隱層的狀態(tài),將三維矩陣壓縮為二維。


    image.png

    curr_out的大小是 Batch * Embedding Size * Layer size。然后把curr_out按照direct或者非direct的方式作為下一個隱層向量的輸入。filters采用默認glorot_uniform_initializer初始化。

純屬學(xué)習(xí) 不涉利益

ref:
https://zhuanlan.zhihu.com/p/343174108
*https://zhuanlan.zhihu.com/p/145436595
https://zhuanlan.zhihu.com/p/35526715
https://zhuanlan.zhihu.com/p/61096338
https://zhuanlan.zhihu.com/p/83784018
https://zhuanlan.zhihu.com/p/371849616
https://zhuanlan.zhihu.com/p/67795161
https://arxiv.org/pdf/1703.04247.pdf
https://zhuanlan.zhihu.com/p/154591869
https://zhuanlan.zhihu.com/p/109933924
https://zhuanlan.zhihu.com/p/45450361
https://www.cnblogs.com/talkaudiodev/p/14287562.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內(nèi)容

  • 16宿命:用概率思維提高你的勝算 以前的我是風(fēng)險厭惡者,不喜歡去冒險,但是人生放棄了冒險,也就放棄了無數(shù)的可能。 ...
    yichen大刀閱讀 6,074評論 0 4
  • 公元:2019年11月28日19時42分農(nóng)歷:二零一九年 十一月 初三日 戌時干支:己亥乙亥己巳甲戌當(dāng)月節(jié)氣:立冬...
    石放閱讀 6,901評論 0 2
  • 今天上午陪老媽看病,下午健身房跑步,晚上想想今天還沒有斷舍離,馬上做,衣架和旁邊的的布衣架,一看亂亂,又想想自己是...
    影子3623253閱讀 2,922評論 1 8