2019-03-26

快速看下,先了解下推薦系統整個環節,畫像是基礎,但是是其中一部分。了解下召回,排序?預估等,每一步都做了什么,為什么這么做,然后對應相應的算法,模型

這樣比較快,跟后續的工作也銜接起來

在設計詞匯表時,需要考慮本體的復用,這是本體知識共享、知識應用增加可行性的重要步驟。

本體構建工具:protege,最終形成一種樹狀結構,通過樹結構清晰的體現了領域概念間的類屬關系,每一個子樹都對應領域中獨立的、模塊化的知識模型。

對象屬性主要用來約束兩個類實例間的關系,定義域為類,值域為某個類的實例,數據屬性約束類的實例,定義域為某個類的實例,值域為布爾型、字符串型、整型或時間等。

Protégé

軟件是斯坦福大學醫學院生物信息研究中心基于Java語言開發的本體編輯和知識獲取軟件,或者說是本體開發工具,也是基于知識的編輯器,屬于開放源代碼軟件。這個軟件主要用于語義網中本體的構建,是語義網中本體構建的核心開發工具。

如果類和屬性時本體的“骨骼”,實例則是本體的“血肉”。例如,紅高粱時電影類的實例,張藝謀時導演類的實例,姜文時演員類的實例,則紅高粱、張藝謀、姜文之間就有關系。

利用protege創建的本體,其數據一般以RDF、OWL、或XML格式的文件形式進行存儲。而推薦系統中的數據大多采用關系數據庫進行存儲,這就使得本體數據無法直接在推薦系統中使用。

群體用戶畫像分析:用戶畫像通過將用戶標簽化,可以實現對用戶的精煉概括。在設置推薦系統時,不可能針對所有的用戶畫像來進行設計。因為不同的用戶畫像間不可避免存在相互沖突的需求,從而會使得推薦系統難以決斷,因此,針對系統中存在的大量的用戶畫像,就需要實施有效的用戶畫像管理。

用戶畫像作為目標用戶的標簽化,不僅僅用來分析目標用戶,還應該包含用戶間的關聯分析,即群體用戶畫像分析。群體用戶畫像分析旨在依據不同的評估維度和模型算法,通過聚類方式將具有相同特征的用戶劃歸成同一族群,進而發現核心的、規模較大的用戶群,從而在設計推薦系統時考慮優先滿足核心用戶群的需求,進一步在不存在沖突的情況下盡量滿足次要用戶群的需求。通常情況下,一個系統會選取3~6個用戶群來代表系統可能會面向的所有用戶。可見,群體用戶畫像技術的出現,能夠幫助推薦系統設計人員方便地從海量的用戶群體中發現存在的差異化特征,從而根據該差異化特征設計并提供有針對性的產品及服務。

群體用戶畫像分析的流程主要包括:

1.用戶畫像獲取。可以通過推薦系統的數據統計模塊獲得。

2.用戶畫像相似度計算。根據不同的用戶畫像計算相互間的相似程度,時區分用戶群體的重要指標,時開展用戶畫像聚類的前提條件。

3.用戶畫像聚類。根據用戶畫像間的相似程度,將相似的用戶畫像聚為一類。

4.群體用戶畫像生成。針對不同類別的用戶分別建立有代表性的典型用戶畫像。

用戶畫像之間的相似度計算需要結合定量相似度計算和定性相似度來進行計算。

在用戶畫像相似度的計算過程中,往往會基于多個定量標簽的數據來計算相似度,值得主義的是,不同定量標簽數值的取值范圍可能存在數量級級別的差異,從而使得相似度計算過程中,某些定量標簽對綜合相似度貢獻微乎其微。因此,在計算之前,對不同定量標簽的數據進行歸一化處理就尤為重要。歸一化是物理系統中一種無量綱處理手段。在這里,歸一化是將不同取值范圍的定量標簽數據統一映射到[0,1]區間。常用的歸一化方法有線性函數轉化、對數函數轉換、反正切函數轉換等。

線性函數轉換為:Y=(X-Xmin)/(Xmax-Xmin)的絕對值。

其中,X? Y 分別表示轉換前后的值,Xmax ??Xmin分別表示待轉換值的最大值和最小值。

對數函數轉換Y等于log以10為底X的對數。

反正切函數轉化為Y=atan(X)2/pi

具體的某個定量標簽相似度計算:

數值計算應根據具體的用戶畫像采用不同的計算方式,可以采用歐氏距離、余弦相似度、Jaccard系數等。對于標量標簽,通常采用歐式距離、曼哈頓距離和余弦相似度。

定性相似度計算:

定性相似度計算可以從兩個方向展開:一個方向是將定性標簽映射為定量標簽,進而采用定量標簽的相似度計算方法;另一個方向是直接采用基于概念的相似度計算方法。

用戶畫像聚類是根據用戶畫像本身的特征進行分類的一種方法

用戶畫像作為一種刻畫目標用戶,鏈接用戶需求與系統設計的有效工具,已經在各領域得到了廣泛的應用。

用戶畫像的表現形式眾多,常見的有:

1.關鍵詞法,即一組代表用戶屬性的特征詞。

2.評分矩陣法,以二維矩陣的行為來表示用戶,列表示特征項目,行列的交叉點為某用戶對某特征項目的評分。

3.向量空間表示法,給出一組關鍵詞及對應的比重。

4.本體表示法,以本體模型存儲用戶的屬性和關系。

用戶畫像在不同的應用領域有著不同的具體組成元素,如營銷領域的用戶畫像主要側重用戶的消費習慣,而在視頻推薦領域,用戶畫像則主要側重用戶的觀影喜好,因此需要針對用戶畫像的具體領域及組成設計相對應的用戶畫像管理方法。從管理實施的流程來看,用戶畫像管理主要包括存儲機制、查詢機制及定時更新機制。推薦系統的用戶畫像的主要目的是輔助完成數據挖掘和分析。

關系型數據庫是建立在關系模型基礎上的數據庫。

查詢時推薦系統最常用、最基本的操作,針對上述不同的存儲方式有著相應的查詢方法。值得注意的是,查詢處理的效率在很大程度上決定了推薦系統的性能。因此,為獲得高效的查詢性能,可以考慮以下幾個方面:1.用戶畫像的用途決定了畫像數據主要以查詢為主,這就使得用戶畫像數據的查詢強調極高的并發查詢性能。并發:是多個任務交替執行,一個接一個的,等待的是同一個資源,并行是多個任務同時進行。2.在涉及用戶畫像的大量查詢中,通常有很多查詢都是重復的,很少一部分查詢就占了用戶需求的大部分。如果能夠通過某些方法提高這少部分經常出現的查詢詞的質量,就能使整體的查詢性能提高不少。

一個簡單的用戶畫像庫就會有數百個特征標簽,其中有些特征標簽是固定不變的,有些是定期變化的,因此,有效的用戶畫像需要不斷的進行完善和持續更新。

用戶畫像的更新機制按工作流程主要涉及以下幾個問題:

1.如何獲取實時變化的用戶畫像數據。進而根據一定的更新策略,實現用戶畫像的更新。

2.如何設置合適的用戶畫像更新觸發條件。基于實時的用戶畫像可以獲得更加精確的推薦結果。然而,用戶畫像的更新具有較大的時間及計算復雜度,因此需要在推薦精確度與更新復雜度間獲得均衡。

3.高效的更新算法。用戶畫像是從海量的用戶行為數據分析中得到的,同時用戶行為數據又是實時產生的,如何依據這些海量且動態增加的行為數據得到準確的用戶畫像需要高效的算法。

用戶畫像時刻畫用戶屬性的基礎數據,其中有些是直接獲取的原始數據,有些是經過挖掘的二次數據,單純的數據只是一些字節的堆積,我們必須通過對數據的清洗去除數據中的噪聲,然后通過算法和模型學習其中的規律,才能將數據的價值最大化。收集到用戶的所有相關數據,并將用戶數據劃分為靜態數據和動態數據兩大類。

對于靜態數據的獲取,其收集方式是顯式收集,最直接的方式是通過表單要求用戶提供個人信息。

對于動態數據,收集方式是隱士收集,系統會在不干擾用戶與推薦系統交互的基礎上,從用戶的操作行為和上下文信息中獲取。

更新觸發條件:

1.通過設置一個閾值,當獲取的實時畫像數據量超過這一閾值,根據存儲的畫像數據構建用戶畫像。2.設置一個時間周期,每隔該周期時間根據存儲的畫像數據構建用戶畫像。3.首先從增加的數據中挖掘用戶畫像,然后將其與原先得到的用戶畫像進行比較,根據比較的結果來決定是否更新。第一種適合數據敏感的型的用戶畫像,第二種適合時效性要求較高的用戶畫像,第三種適合相對穩定的用戶畫像。

比較常見的增量式更新算法是滑動窗口過濾算法。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容

  • Django 虛擬環境 創建:virtualenv --no-site-packages -p python.ex...
    woming閱讀 391評論 0 0
  • flask 環境 使用virtualenv創建 安裝:pip install virtualenv 創建虛擬環境:...
    woming閱讀 573評論 0 0
  • 冷冷清清,戚戚不覺聲。 輕輕癡癡,聲色彈雨絲。 “啪”沉沉一關門聲,隔壁教室的門,又被風合上了。大自然的精靈就是調...
    楊小羊的黑白世界閱讀 1,906評論 0 2
  • 不知不覺的,2017年己經過去,2o18年己悄然到來,總結17年,這一年最大的收獲是學會怎樣與孩子相處,怎樣與孩子...
    鄭治中閱讀 151評論 0 0
  • 敬愛的李老師,智慧的班主任,親愛的躍友們: 大家好!我是來自沈陽鑫視界的李海波。 今天是我的日精進...
    俺是山里娃70閱讀 140評論 0 0