快速看下,先了解下推薦系統整個環節,畫像是基礎,但是是其中一部分。了解下召回,排序?預估等,每一步都做了什么,為什么這么做,然后對應相應的算法,模型
這樣比較快,跟后續的工作也銜接起來
在設計詞匯表時,需要考慮本體的復用,這是本體知識共享、知識應用增加可行性的重要步驟。
本體構建工具:protege,最終形成一種樹狀結構,通過樹結構清晰的體現了領域概念間的類屬關系,每一個子樹都對應領域中獨立的、模塊化的知識模型。
對象屬性主要用來約束兩個類實例間的關系,定義域為類,值域為某個類的實例,數據屬性約束類的實例,定義域為某個類的實例,值域為布爾型、字符串型、整型或時間等。
Protégé
軟件是斯坦福大學醫學院生物信息研究中心基于Java語言開發的本體編輯和知識獲取軟件,或者說是本體開發工具,也是基于知識的編輯器,屬于開放源代碼軟件。這個軟件主要用于語義網中本體的構建,是語義網中本體構建的核心開發工具。
如果類和屬性時本體的“骨骼”,實例則是本體的“血肉”。例如,紅高粱時電影類的實例,張藝謀時導演類的實例,姜文時演員類的實例,則紅高粱、張藝謀、姜文之間就有關系。
利用protege創建的本體,其數據一般以RDF、OWL、或XML格式的文件形式進行存儲。而推薦系統中的數據大多采用關系數據庫進行存儲,這就使得本體數據無法直接在推薦系統中使用。
群體用戶畫像分析:用戶畫像通過將用戶標簽化,可以實現對用戶的精煉概括。在設置推薦系統時,不可能針對所有的用戶畫像來進行設計。因為不同的用戶畫像間不可避免存在相互沖突的需求,從而會使得推薦系統難以決斷,因此,針對系統中存在的大量的用戶畫像,就需要實施有效的用戶畫像管理。
用戶畫像作為目標用戶的標簽化,不僅僅用來分析目標用戶,還應該包含用戶間的關聯分析,即群體用戶畫像分析。群體用戶畫像分析旨在依據不同的評估維度和模型算法,通過聚類方式將具有相同特征的用戶劃歸成同一族群,進而發現核心的、規模較大的用戶群,從而在設計推薦系統時考慮優先滿足核心用戶群的需求,進一步在不存在沖突的情況下盡量滿足次要用戶群的需求。通常情況下,一個系統會選取3~6個用戶群來代表系統可能會面向的所有用戶。可見,群體用戶畫像技術的出現,能夠幫助推薦系統設計人員方便地從海量的用戶群體中發現存在的差異化特征,從而根據該差異化特征設計并提供有針對性的產品及服務。
群體用戶畫像分析的流程主要包括:
1.用戶畫像獲取。可以通過推薦系統的數據統計模塊獲得。
2.用戶畫像相似度計算。根據不同的用戶畫像計算相互間的相似程度,時區分用戶群體的重要指標,時開展用戶畫像聚類的前提條件。
3.用戶畫像聚類。根據用戶畫像間的相似程度,將相似的用戶畫像聚為一類。
4.群體用戶畫像生成。針對不同類別的用戶分別建立有代表性的典型用戶畫像。
用戶畫像之間的相似度計算需要結合定量相似度計算和定性相似度來進行計算。
在用戶畫像相似度的計算過程中,往往會基于多個定量標簽的數據來計算相似度,值得主義的是,不同定量標簽數值的取值范圍可能存在數量級級別的差異,從而使得相似度計算過程中,某些定量標簽對綜合相似度貢獻微乎其微。因此,在計算之前,對不同定量標簽的數據進行歸一化處理就尤為重要。歸一化是物理系統中一種無量綱處理手段。在這里,歸一化是將不同取值范圍的定量標簽數據統一映射到[0,1]區間。常用的歸一化方法有線性函數轉化、對數函數轉換、反正切函數轉換等。
線性函數轉換為:Y=(X-Xmin)/(Xmax-Xmin)的絕對值。
其中,X? Y 分別表示轉換前后的值,Xmax ??Xmin分別表示待轉換值的最大值和最小值。
對數函數轉換Y等于log以10為底X的對數。
反正切函數轉化為Y=atan(X)2/pi
具體的某個定量標簽相似度計算:
數值計算應根據具體的用戶畫像采用不同的計算方式,可以采用歐氏距離、余弦相似度、Jaccard系數等。對于標量標簽,通常采用歐式距離、曼哈頓距離和余弦相似度。
定性相似度計算:
定性相似度計算可以從兩個方向展開:一個方向是將定性標簽映射為定量標簽,進而采用定量標簽的相似度計算方法;另一個方向是直接采用基于概念的相似度計算方法。
用戶畫像聚類是根據用戶畫像本身的特征進行分類的一種方法
用戶畫像作為一種刻畫目標用戶,鏈接用戶需求與系統設計的有效工具,已經在各領域得到了廣泛的應用。
用戶畫像的表現形式眾多,常見的有:
1.關鍵詞法,即一組代表用戶屬性的特征詞。
2.評分矩陣法,以二維矩陣的行為來表示用戶,列表示特征項目,行列的交叉點為某用戶對某特征項目的評分。
3.向量空間表示法,給出一組關鍵詞及對應的比重。
4.本體表示法,以本體模型存儲用戶的屬性和關系。
用戶畫像在不同的應用領域有著不同的具體組成元素,如營銷領域的用戶畫像主要側重用戶的消費習慣,而在視頻推薦領域,用戶畫像則主要側重用戶的觀影喜好,因此需要針對用戶畫像的具體領域及組成設計相對應的用戶畫像管理方法。從管理實施的流程來看,用戶畫像管理主要包括存儲機制、查詢機制及定時更新機制。推薦系統的用戶畫像的主要目的是輔助完成數據挖掘和分析。
關系型數據庫是建立在關系模型基礎上的數據庫。
查詢時推薦系統最常用、最基本的操作,針對上述不同的存儲方式有著相應的查詢方法。值得注意的是,查詢處理的效率在很大程度上決定了推薦系統的性能。因此,為獲得高效的查詢性能,可以考慮以下幾個方面:1.用戶畫像的用途決定了畫像數據主要以查詢為主,這就使得用戶畫像數據的查詢強調極高的并發查詢性能。并發:是多個任務交替執行,一個接一個的,等待的是同一個資源,并行是多個任務同時進行。2.在涉及用戶畫像的大量查詢中,通常有很多查詢都是重復的,很少一部分查詢就占了用戶需求的大部分。如果能夠通過某些方法提高這少部分經常出現的查詢詞的質量,就能使整體的查詢性能提高不少。
一個簡單的用戶畫像庫就會有數百個特征標簽,其中有些特征標簽是固定不變的,有些是定期變化的,因此,有效的用戶畫像需要不斷的進行完善和持續更新。
用戶畫像的更新機制按工作流程主要涉及以下幾個問題:
1.如何獲取實時變化的用戶畫像數據。進而根據一定的更新策略,實現用戶畫像的更新。
2.如何設置合適的用戶畫像更新觸發條件。基于實時的用戶畫像可以獲得更加精確的推薦結果。然而,用戶畫像的更新具有較大的時間及計算復雜度,因此需要在推薦精確度與更新復雜度間獲得均衡。
3.高效的更新算法。用戶畫像是從海量的用戶行為數據分析中得到的,同時用戶行為數據又是實時產生的,如何依據這些海量且動態增加的行為數據得到準確的用戶畫像需要高效的算法。
用戶畫像時刻畫用戶屬性的基礎數據,其中有些是直接獲取的原始數據,有些是經過挖掘的二次數據,單純的數據只是一些字節的堆積,我們必須通過對數據的清洗去除數據中的噪聲,然后通過算法和模型學習其中的規律,才能將數據的價值最大化。收集到用戶的所有相關數據,并將用戶數據劃分為靜態數據和動態數據兩大類。
對于靜態數據的獲取,其收集方式是顯式收集,最直接的方式是通過表單要求用戶提供個人信息。
對于動態數據,收集方式是隱士收集,系統會在不干擾用戶與推薦系統交互的基礎上,從用戶的操作行為和上下文信息中獲取。
更新觸發條件:
1.通過設置一個閾值,當獲取的實時畫像數據量超過這一閾值,根據存儲的畫像數據構建用戶畫像。2.設置一個時間周期,每隔該周期時間根據存儲的畫像數據構建用戶畫像。3.首先從增加的數據中挖掘用戶畫像,然后將其與原先得到的用戶畫像進行比較,根據比較的結果來決定是否更新。第一種適合數據敏感的型的用戶畫像,第二種適合時效性要求較高的用戶畫像,第三種適合相對穩定的用戶畫像。
比較常見的增量式更新算法是滑動窗口過濾算法。