淺談推薦系統基礎

這篇文章的技術難度會低一些，主要是對推薦系統所涉及到的各部分內容進行介紹，以及給出一些推薦系統的常用算法，比起技術，產品色彩會強不少。參考了《長尾理論》、《推薦系統實踐》以及大量相關博客內容。

什么是推薦系統

我之前寫過一篇《長尾理論》精讀，里面有這樣的觀點：

推動市場由熱門經濟學向長尾經濟學轉變有三種力量：第一種是生產普及的力量（生產者），第二種是傳播普及的力量（集合器），第三種是供需相連的力量（過濾器）。

生產普及的力量指，當下大眾制作內容（圖像、音視頻、文字等）的門檻大大降低，人們有能力制作并有意愿分享自己產生的內容。使得可供展示的內容量大大增加。

傳播普及的力量指，相當一部分內容由原子存在變為比特存在，不再需要占據物理世界中的『貨架』，而是存儲在硬盤之中，存儲成本的降低使得大量非熱門的長尾內容可以被擺上虛擬世界中的『貨架』，真的有了對外展示的機會。

而供需相連的力量，就是指推薦系統。

既然存在大量的長尾內容，那如何供需相連？推薦系統要做的，就是聯系用戶和內容，一方面幫助用戶發現對自己有價值的內容；另一方面讓內容能夠展現在對它感興趣的用戶面前，從而實現內容消費者和內容生產者的雙贏。

為了聯系用戶和內容，其實過去也有很優秀的解決方案，有代表性的比如分類目錄和搜索引擎。

隨著互聯網規模的不斷擴大，分類目錄網站也只能覆蓋少量的熱門網站，越來越不能滿足用戶的需求，因此搜索引擎誕生了。搜索引擎可以讓用戶搜索關鍵詞來找到自己所需要的信息，但是，搜索的前提就是用戶要主動提供準確的關鍵詞，但是如果用戶無法準確的描述自己需求的關鍵詞時，搜索引擎就無能為力了。

而推薦系統不同，它不需要用戶提供明確的需求，甚至連用戶主動提出需求都不需要。推薦系統通過分析用戶的歷史行為給用戶的興趣建模，從而主動給用戶推薦能夠滿足它們興趣和需求的內容。

什么是好的推薦系統？

先總體來說，一個完整的推薦系統一般存在三個參與方：用戶、內容提供者和提供推薦系統的網站。

首先，推薦系統要滿足用戶的需求，給用戶推薦那些讓他們感興趣的內容；其次，推薦系統要讓內容提供者的內容都能被推薦給對其感興趣的用戶；最后，好的推薦系統設計，能夠讓推薦系統本身收集到高質量的用戶反饋，不斷提高推薦的質量，提高推薦系統的效益。

總結

在上面提到的指標里，預測準確度、覆蓋率、多樣性、新穎性是可以離線計算的。實際評測算法時，我們一般采用預測準確度的正確率和召回率，覆蓋率，還有推薦商品的平均流行度。

綜合一下上面的指標，我們前面說了三個目標，分別是讓用戶滿意、讓物品提供者滿意、讓推薦系統滿意。用戶滿意度對應第一個目標，覆蓋率對應第二個目標，商業目標對應第三個目標。因為用戶滿意度不容易獲得，所以實際上預測準確度替代用戶滿意度成為了最重要的指標。然后我們回到推薦列表上，將其與物品類型結合，物品種類多就是多樣性；將其與用戶認知結合，用戶沒聽過就是新穎性。驚喜度是新穎性的升級。然后是整個推薦系統，推薦系統需要實時性和健壯性，來穩定保證好的推薦結果。而且有的場景的推薦系統還要考慮到用戶對推薦系統的信任度的問題。

這樣就把這十個指標串起來了，也更方便記憶。

當然我們在采用以上指標進行評測時，也要考慮到評測的用戶維度、物品維度、時間維度，也就是涉及評測的用戶群，物品的種類屬性和評測的季節、時間等。這可以讓我們發現不同算法在不同場景下的優缺點。

利用用戶行為數據

實現個性化推薦最理想的情況，是用戶告訴我們他喜歡什么，但這種方法有三個缺點：

第一個是，現在的自然語言處理技術還很難理解用戶用來描述興趣的自然語言；
第二個是，用戶的興趣是不斷變化的；
第三個是，用戶也不知道自己喜歡什么，或者說，用戶也很難用語言描述自己喜歡什么。

這里考慮代入HMM的思想，用戶的需求會不斷變化，就是狀態序列。而且這個狀態序列是隱藏的，也就是我們無法直接獲知用戶的興趣，不管是因為用戶自己沒意識到還是無法表達。我們需要通過觀察序列，也就是用戶的行為數據去做推測，去根據EM算法估計這個HMM的參數，然后再用其來得到用戶的需求序列，也就是隱狀態序列。

基于用戶行為分析的算法是個性化推薦系統的重要算法，學術界一般將這種算法稱為協同過濾算法。

我們能拿到的用戶行為一般分為兩種，顯性反饋行為和隱性反饋行為，顯性反饋行為就是點擊喜歡不喜歡，或者評5分1分。隱性反饋行為指的是那些不能明確反應用戶喜好的行為。最具代表性的隱性反饋行為就是頁面瀏覽行為，雖然不明確，但數據量更大。而且隱性反饋只有正反饋，沒有負反饋。

即便是反饋也分為有無上下文，實際上就是是否記錄了用戶反饋行為的時間以及前后行為，這里先只考慮無上下文的隱性反饋數據集。

用戶行為分析

用戶活躍度和物品流行度的分布

互聯網上的很多數據其實都滿足長尾分布，也叫PowerLaw分布，我在《淺談自然語言處理基礎》中還提到過，就是講平滑方法，古德圖靈估計法那里。里面提到了Zipf定律，也即，如果將英文單詞出現的頻率按照由高到低排列，則每個單詞出現的頻率和它在熱門排行榜中排名的常數次冪成反比。也可以這么說，如果x1，x2，x3是三個熱門排名相鄰的三類單詞，x1最靠前，那么出現的頻率x2/x1 < x2/x3，也就是最開始下降的最快，然后下降速度越來越慢。

我們發現，用戶活躍度和物品流行度都滿足長尾分布。

用戶活躍度和物品流行度的關系

我們認為，新用戶傾向于瀏覽熱門的物品，老用戶會逐漸開始瀏覽冷門的物品。用戶越活躍，越傾向于瀏覽冷門的物品。

僅僅基于用戶數據設計的推薦算法一般稱為協同過濾算法，協同過濾算法也分為不同種類，比如基于鄰域的方法、隱語義模型、基于圖的隨機游走算法等。其中應用的最廣的是基于鄰域的方法，而基于鄰域的方法主要包括以下兩種：

基于用戶的協同過濾算法：給用戶推薦和他興趣相似的用戶喜歡的物品
基于物品的協同過濾算法：給用戶推薦和他之前喜歡的物品相似的物品

簡便起見，我們通常使用準確率、召回率、覆蓋率和新穎度來對算法進行離線實驗，覆蓋率就用最簡單的覆蓋率定義，新穎度用推薦物品的平均流行度代替。

基于鄰域的算法

基于用戶的協同過濾算法

基于用戶的協同過濾算法主要包括兩個步驟：

找到和目標用戶興趣相似的用戶集合
找到這個集合中的用戶喜歡的，且目標用戶沒有聽說過的物品推薦給目標用戶

第一步的關鍵就是找到和目標用戶興趣相似的用戶，我們可以用兩個用戶興趣的交集比上興趣的并集來求得相似度（Jaccard相似度），或者利用余弦相似度計算。

如果用余弦相似度：

分子是兩個用戶興趣交集的模，分母是兩個用戶興趣的模的乘積的平方根。

要注意的是，有很多用戶之間根本就沒有興趣的交集，所以就不需要浪費時間在這種情況的計算上。

得到用戶之間的興趣相似度之后，UserCF算法會推薦給用戶和他興趣最相似的K個用戶最喜歡的若干個物品。

判斷該用戶u對某一件物品i的感興趣程度時的公式如下：

也即用K個和他興趣最相似用戶的平均興趣代表這個用戶的興趣。w代表兩個用戶興趣之間的相似程度，r指感興趣程度的大小，這里統一為1。Σ下面的意思是，K個和u興趣最相似的用戶，而且同時要對物品i有過行為。可以這么理解，如果這K個用戶都沒有對某個物品有過行為，那基本就可以認為他們對該物品都不感興趣，就不應該加到式子中。

換句話說，這K個用戶，與用戶u的相似度決定了他們的話語權，他們表決的方式就是自己是否對該物品有過正面行為。

最后我們只需要取感興趣程度TopN的物品出來推薦給用戶就好了，當然還要去掉該用戶已經有過行為的物品。

K是UserCF算法的一個重要參數。K的選取會影響UserCF算法的結果。

一般進行算法評測時，我們會有兩個標準算法，分別是MostPopular和Random算法，一個是按最高流行度來，一個是完全隨機，都只是簡單的去掉用戶有過行為的物品。

UserCF算法的平均性能要遠好于以上兩個算法。

當然UserCF算法也有改進的空間，比如在計算用戶相似度的時候，大家同樣購買了熱門物品其實沒有什么說服力，并不能以此說明兩個用戶就相似了，所以我們需要對熱門物品進行降權，如下式：

該公式與原公式相比，懲罰了用戶u和用戶v共同興趣列表中熱門物品對他們相似度的影響。這里先提一下TF-IDF，后面還要提，《淺談機器學習基礎》中講K-means的時候就講過TF-IDF，TF-IDF里的這個IDF，就是對出現在幾乎所有文檔中的熱門詞進行降權懲罰。

基于物品的協同過濾算法

基于物品的協同過濾算法是目前業界應用最多的算法。

如果網站的用戶數目增加較快，計算用戶興趣的相似度矩陣就越來越難。而ItemCF算法不計算用戶興趣的相似度矩陣，而是計算物品之間的相似度。還有，我們前面說過基于鄰域的這兩個算法都是協同過濾算法，協同過濾算法的定義就是只使用用戶行為數據，所以這里所定義的物品的相似度，不利用物品本身的內容信息去計算，而是主要通過分析用戶的行為記錄計算物品之間的相似度。

如果喜歡A的用戶大多都喜歡B，那么A和B可以講擁有一定的相似性。或者說，就算不相似，那我們把B推薦給喜歡A的用戶也是沒錯的。

基于物品的協同過濾算法主要分為兩步：

計算物品之間的相似度
根據物品的相似度和用戶的歷史行為給用戶生成推薦列表

我們可以用下面的公式定義物品之間的相似度：

意思就是，買了i的用戶有多少也買了j。如果兩者的用戶群重合比例越大，那么認為i和j就更相似。

但是還有個問題，就是如果按照上面的公式算，所有的物品都和熱門商品相似，如果j是大熱門商品的話，基本上喜歡i的全都喜歡j，這樣就有問題，為了提高覆蓋率，我們要對熱門物品進行懲罰：

上面的式子就對熱門物品的權重進行了懲罰。

得到物品的相似度之后，ItemCF通過如下公式計算用戶u對物品i的興趣：

與UserCF對比著來說，UserCF是用K個和用戶u興趣最相似用戶的平均興趣代表這個用戶u的興趣；ItemCF就是用K個和物品j最相似的物品來代表這個物品j。UserCF是，這K個用戶，與用戶u的相似度決定了他們的話語權，他們表決的方式就是自己是否對該物品有過正面行為；ItemCF是，這K個物品，與物品j的相似度決定了他們的話語權，他們表決的方式就是自己是否被該用戶有過正面行為。

然后我們再回到物品相似度，雖然上面已經給熱門物品降了權，但是我們還要考慮到熱門用戶的問題。我們認為，一個活躍用戶可能會喜歡很多種類的物品，他對物品相似度的貢獻應該小于不活躍的用戶，因為不活躍的用戶往往喜歡比較專一，在衡量物品相似度上更有價值，這叫IUF（Inverse User Frequence）。如下式：

又進一步對活躍用戶進行了降權。

另外，在有物品分類的情況下，我們需要對類內物品相似度進行歸一化，因為通常熱門類別類內相似度也較高。如果一個用戶同時喜歡了熱門類別和非熱門類別的物品，如果純按照相似度推薦，那就會都推薦給用戶熱門類別中的物品，會降低覆蓋度、多樣性。所以我們利用類內最大的相似度，對類內所有的相似度進行歸一化。

UserCF和ItemCF的綜合比較

主要從兩個方面來講，第一個，UserCF的推薦結果著重于反應和用戶興趣相似的小群體的熱點，著重于維系用戶的歷史興趣，因為就是根據歷史興趣計算出來的相似用戶，進而計算出來的推薦商品。而ItemCF的推薦更加個性化，反映用戶自己的興趣傳承，因為一旦用戶的興趣有了更新，喜歡了新物品，那么與該物品相關的物品在參與ItemCF進行計算時，就會馬上有權重提高，被推薦出來。

這么說，UserCF幫你找了一些用戶來代表你，他們的興趣是不可能統一的發生大幅改變的，所以你得到的推薦結果都是這一類的東西；而ItemCF，一旦你興趣列表變了，那接著就認為你興趣變了，喜歡你這個新興趣的人喜歡的物品就會被推薦給你。

UserCF認為喜歡同樣物品的人相似，ItemCF認為被同樣人喜歡的物品相似。UserCF對用戶聚類，整體對待他們的喜好，ItemCF對物品聚類，喜歡一個就是喜歡一堆。

對于UserCF和ItemCF，再舉一下典型的例子，首先是新聞網站，新聞網站必然要用UserCF，相似用戶的興趣基本相同，沒問題；如果用了ItemCF，難道要推薦和這篇新聞相似的舊新聞？當然這兩種方法也不是一定要絕對分開。

比如音樂網站，網易云音樂的推薦算法，就更接近ItemCF，你喜歡了一種新風格，這一風格的歌就會被推薦給你，而不是認為你一輩子只喜歡聽一種類型的音樂，把你和與過去的你相似的人綁在一起。

第二個是從技術角度想，物品和用戶表，哪個穩定就用哪個建模。物品迅速增加那就建立用戶相似度表，用戶迅速增加就建立物品相似度表。

隱語義模型

隱語義模型（latent factor model，LFM）是最近幾年推薦系統最為熱門的研究話題，它的核心思想是通過隱含特征聯系用戶興趣和物品。

前面已經詳細的介紹了UserCF和ItemCF，這里說一下LFM的主要思想，首先回憶一下SVD，SVD將矩陣拆解為三部分的乘積。《淺談機器學習基礎》中這樣講過：

SVD的第二個用途是在自然語言處理中，我在《數學之美》這本書上讀到。我們用A矩陣來描述成千上萬篇文章和幾十上百萬個詞的關聯性，A里面每一列是一篇文章，每一行代表一個詞，對應位置上是這個詞的加權詞頻（比如TF-IDF值），然后我們對A進行奇異值分解，分成這樣：A=XBY，這里和前面的：A=XY的關聯性在于，兩式的X相同，第二式的Y等于第一式中的BY，X是M*K，B是K*K，Y是K*N。

第一個矩陣X是對詞分類的結果，它的每一行表示一個詞，每一列表示一個同義詞類，對應位置的值表示該詞和該同義詞類的相關性大小。

第三個矩陣Y是對文章分類的結果，它的每一列對應一篇文章，每一行表示一個主題，對應位置的值表示該文章和該主題的相關性大小。

第二個矩陣則展示了不同同義詞類和不同文章主題的相關性大小。

推薦系統這里也是同理，如果將原數據按照SVD分解成三個矩陣的話，所得到的就是對用戶興趣的分類、對物品的分類以及用戶興趣類別與物品類別之間的關系。當然我們也知道SVD不僅能分解成三個矩陣的形式，也能分解為兩矩陣的形式，意義是用戶興趣與某隱類的關系和該隱類與物品的關系。SVD的詳細講解可以參考前面的《淺談機器學習基礎》，其實下面要講的LFM方法，也就是《淺談機器學習基礎》所講的，SVD在推薦系統中的應用。

當然對用戶興趣和物品進行分類這件事情人工也是可以做的，但成本較大，而且效果也并不太好，所以這里就不詳細說了。

隱含語義分析技術其實有很多著名的模型和方法，其中和該技術相關的有pLSA、LDA、隱含類別模型、隱含主題模型、矩陣分解等。這些方法在本質上是相通的。這里主要講解LFM。

LFM通過如下公式計算用戶u對物品i的興趣：

累加式子中的p代表用戶u的興趣和第k個隱類之間的關系，q代表第k個隱類和物品i之間的關系。對所有隱類求和的結果就是總的興趣程度。

這其實是種機器學習方法，模型就是這個模型，然后我們可以用平方誤差來做損失函數，就是給定訓練集下，度量用戶感興趣與否的實際情況與預測結果是否相符，再用梯度下降最小化損失函數，減小模型預測結果與實際情況的誤差，最終收斂就可以了。我們還可以在損失函數中添加正則項來防止過擬合。這些都是《淺談機器學習基礎》里面反復講過的東西。

而且為了應對隱性反饋數據集只有正樣本的情況，我們傾向于從用戶沒有行為的熱門物品中選取適量（與正樣本數平衡）的負樣本。適量就不用說了，選擇熱門物品的原因在于，物品熱門而用戶對其無正面反饋，比冷門物品更能說明用戶對其不感興趣，而不是因為也許根本就沒有發現。

LFM還有個問題，就是它很難實現實時的推薦，因為經典的LFM模型每次訓練時都要掃描所有的用戶行為記錄，不是分分鐘就能訓練好就能更新用戶隱類向量p和物品隱類向量q的。如果要將LFM應用在新聞網站這種內容實時更新的系統中，那是肯定無法滿足需求的。

雅虎為了解決傳統LFM不能實時化的問題，提出了一個解決方案，公式如下：

后面那部分就是原先的用戶隱類向量和物品隱類向量，幾個小時更新一次。實時性體現在前面的式子上，x是根據用戶歷史行為特別訓練的用戶向量，y是根據物品的內容（關鍵詞、屬性、種類）去生成的物品內容特征向量。這樣兩者的乘積就能實時的估計出用戶對該物品的興趣，幾小時后，通過傳統的LFM就能得到更精確的數據。

就像上面說的，LFM與基于鄰域的這兩種方法UserCF和ItemCF相比，LFM不能在線實時推薦，需要提前訓練好模型，而ItemCF可以，至于UserCF，只要和他相似的用戶喜歡了新的物品，也可以做到實時推薦。

基于圖的方法較麻煩，而且效果也比不上LFM，這里就不詳細說了。

與上下文信息結合

之前提到的推薦算法主要研究了如何聯系用戶興趣和物品，將最符合用戶興趣的物品推薦給用戶，但卻都沒有考慮到上下文。

比如舉幾個例子，不能因為用戶在夏天喜歡過某件T恤，就在冬天也給該用戶推薦類似的T恤；用戶在中關村打開一個美食推薦系統時，不能給他推薦河北省的餐館；用戶在上班時和下班后的興趣會有區別，在平時和周末的興趣會有區別，甚至上廁所時和在辦公桌旁閱讀的喜好也是不同的。

時間上下文信息

一般認為，時間對用戶興趣的影響表現在用戶的興趣是變化的、物品也是有生命周期的、季節\節日效應。

推薦系統需要擁有實時性來滿足用戶變化的興趣，比如用戶一旦產生了新的行為，推薦系統就應該有恰當的反應。而且還有一點需要注意的是，推薦系統需要有時間多樣性，也就是，即便是用戶實際上沒有進行任何操作，但我們也不應該每天給用戶推薦相同的內容。

比如我們可以在生成推薦結果時加入一定的隨機性，或者記錄用戶每天看到的推薦結果，對這些推薦結果進行適當的降權，又或者每天給用戶使用不同的推薦算法。

這里我們主要考慮，時間上下文信息對我們經典的基于鄰域的兩個算法ItemCF和UserCF能夠起到什么優化作用。

對于ItemCF，考慮第一點，用戶在相隔很短的時間內喜歡的物品具有更高的相似度；然后是第二點，用戶近期行為比用戶很久之前的行為，更能體現用戶現在的興趣。

對于UserCF，考慮第一點，如果兩個用戶同時喜歡相同的物品，那么這兩個用戶應該有更大的興趣相似度；然后是第二點，與當前用戶最相似的這一組用戶最近的興趣，應該比這組用戶很久之前的興趣更加接近當前用戶今天的興趣。

畢竟ItemCF和UserCF都各有兩個過程，只要將兩個過程分別與時間結合起來，很容易就能知道該往哪個方向優化。

地點上下文信息

地點上下文與用戶興趣也有一定的關系，比如不同城市/國家的人的興趣愛好會有不同，這叫興趣本地化，還有用戶往往在附近地區活動，一般不會因為要吃個飯坐高鐵去別的地方，這叫活動本地化。

所以我們在分析用戶行為數據時，可以考慮到用戶位置和物品位置，當然這是一些實體化的服務提供者需要考慮的問題，如果講網購，用戶和物品位置對喜好的影響就小多了，但也并不是完全消失。

推薦系統實例

這里主要是講好四張圖，首先是第一張，推薦系統和其他系統之間的關系：

推薦系統和其他系統之間的關系

我們通過用戶行為以及其他數據設計推薦系統，推薦系統通過前臺頁面與用戶產生交互，所得到的數據又被日志系統記錄，處理后又回到用戶行為數據庫中，被用來設計更好的推薦系統。

然后是第二張，基于特征的推薦系統架構思路：

基于特征的推薦系統架構思路

其實推薦系統做的就是文章最開頭長尾理論里面講的供需相連，就是連接用戶與物品，那么用戶與物品通過什么相連呢，我們統一的定義其為『特征』。

比如ItemCF，用戶喜歡了一個物品，就相當于是有了一個特征，我們根據這個特征找到相似物品推薦給用戶。

比如UserCF，用戶和某K個用戶最相似，這就也是一個特征，我們根據這個特征找到這K個用戶最喜歡的物品推薦給用戶。

至于LFM，那就與本質更接近了，它的隱含主題/語義就是特征。

還有LDA，LDA與ItemCF其實同理，用戶喜歡了一篇文檔，就相當于是有了一個特征，那根據主題向量θ找到相似的文檔推薦給用戶即可。

然后是第三張，推薦系統的架構圖：

推薦系統的架構圖

我們可以看到推薦系統可以有不止一個推薦引擎，有了多個推薦引擎，我們可以統籌兼顧，方便的配置不同特征和任務的權重，推薦系統只負責將多個推薦引擎的結果按照一定權重或者優先級合并、排序然后返回。

然后是第四張，推薦引擎的架構圖：

推薦引擎的架構圖

推薦引擎架構主要包括三部分：

部分A負責從數據庫或緩存中拿到用戶行為數據，通過分析不同行為，生成當前用戶的特征向量，如果使用非行為特征，就不需要行為提取和分析模塊了，該模塊的輸出就是用戶特征向量。
部分B負責將用戶的特征向量通過特征-物品相關矩陣轉化為該推薦引擎的初始推薦物品列表。
部分C負責對初始的推薦列表進行過濾、排名等處理，從而生成該引擎的最終推薦結果。

部分A和部分B都和算法的選擇有關，這里主要說一下部分C，首先是過濾模塊，我們通常要過濾掉用戶已經產生過行為的物品、過濾掉候選物品以外的物品、過濾掉某些質量很差的商品。

過濾掉候選物品以外的物品有些難理解，意思是，比如說，有產品需求，是要求推薦這個種類的產品，或者用戶自主設置了篩選條件，比如一定的價格區間或者限定了SPU等。

然后是排名模塊，這個各個算法都有考慮，不過這里還是統一的說一下，對于各種推薦算法，我們往往都需要對熱門物品進行降權，排名模塊這里往往也需要一個對熱門物品進行降權的子模塊，來再一次提高新穎性。而且還可以考慮這樣一個問題，與用戶喜歡的物品相似的熱門物品，用戶更有可能已經知道了，可以在對熱門物品降權時著重照顧一下這部分物品。

說完了新穎性，這里提一下多樣性，如果僅按相似度去計算，很可能推薦出的物品都屬于同一個類別。我們可以將原始推薦結果按某種內容屬性分為幾類，然后推薦每類前幾名的物品。就像星際爭霸比賽，雖然說是要看實力，但是也總是要分賽區的，每個賽區多少個名額，要是純按實力，可能所有的名額都是韓國人的了。盡量讓推薦結果來自不同的特征。

還有時間多樣性，前面也提過了，即便是用戶不操作，也盡量不讓用戶每天看到相同的推薦內容。可以引入隨機、記錄用戶看過的推薦結果進行降權或者直接每天用不同的推薦算法。

排名模塊最重要的部分就是用戶反饋模塊，用戶反饋模塊主要是通過分析用戶之前和推薦結果的交互日志，預測用戶會對什么樣的推薦結果比較感興趣，然后根據用戶的興趣進一步優化推薦結果。

比如推薦系統的目標是提高用戶對于推薦結果的點擊率，那么可以利用點擊模型預測用戶是否會點擊推薦結果。比如搜索結果的點擊預測、搜索廣告的點擊預測、上下文廣告的點擊預測。

構建這個預測模型首先需要提取特征，比如：

用戶相關的特征：年齡、性別、活躍度
物品相關的特征：流行度、內容屬性、評分
物品在推薦列表中的位置
用戶之前是否點擊過和推薦物品有同樣推薦解釋的其他推薦結果
用戶之前是否點擊過和推薦物品來自同樣推薦引擎的其他推薦結果

本篇文章的推薦算法基本以推薦物品的推薦算法為主，上面的架構也更傾向于去解決物品推薦問題，不太適合解決社會化推薦問題。

最后編輯于：2017.12.06 13:25:44

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,401評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,011評論 3贊 413
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,263評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,543評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,323評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,874評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,968評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,095評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,605評論 1贊 331
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,551評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,720評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,242評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,961評論 3贊 345
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,358評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,612評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,330評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,690評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

淺談推薦系統基礎

淺談推薦系統基礎

什么是推薦系統

什么是好的推薦系統？

推薦系統實驗方法

推薦系統評測指標

用戶滿意度

預測準確度

覆蓋率

多樣性

新穎性

驚喜度

信任度

實時性

健壯性

商業目標

總結