最近開始介入數(shù)據(jù)資產(chǎn)建設工作。要成為數(shù)據(jù)領(lǐng)域的專家甚至高級專家,必須搞清楚大數(shù)據(jù)的應用方向,核心技術(shù)問題和解決方案。
數(shù)據(jù)的應用方向都有哪些?
- BI報表
- 商業(yè)/投資/經(jīng)濟分析
- 金融風控
- 系統(tǒng)安全
- 用戶畫像
- 相關(guān)推薦
- 其它機器學習任務上游
主要用到的技術(shù),解決的問題
ETL:數(shù)據(jù)摸底、補全、清洗、歸一化、標準化
數(shù)倉建模:三層數(shù)倉、維度模型
數(shù)據(jù)挖掘:等同、相似、相關(guān)、分類、聚類、預測、打標。以及其它通過數(shù)據(jù)驗證假設的過程。
機器學習:分類、預測、聚類、生成,NLP、CV、Speech
用戶畫像:通過用戶行為,計算用戶標簽。
數(shù)據(jù)立方:將指標在各種維度組合下的值提前計算好,形成數(shù)據(jù)立方。供分析引擎使用。
在線分析引擎
可視化
核心技術(shù)棧對照表:
應用 | ETL | 數(shù)倉建模 | 數(shù)據(jù)挖掘 | 機器學習 | 用戶畫像 | 數(shù)據(jù)立方 | 在線分析引擎 | 可視化 |
---|---|---|---|---|---|---|---|---|
BI報表 | V | V | V | V | V | |||
商業(yè)分析 | V | V | V | V | V | |||
金融風控 | V | V | V | V | V | |||
系統(tǒng)安全 | V | V | V | V | V | V | ||
用戶畫像 | V | V | V | |||||
相關(guān)推薦 | V | V | V | |||||
機器學習上游 | V | V | V |
ETL核心技術(shù)
通常ETL邏輯是數(shù)據(jù)挖掘的一部分。
這一步的作用是完成數(shù)據(jù)預處理,定義數(shù)據(jù)規(guī)范,完成數(shù)據(jù)歸一化、標準化。提升數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)并處理異常數(shù)據(jù)。
數(shù)倉建模核心技術(shù)
根據(jù)對領(lǐng)域業(yè)務的理解,使用維度表與事實表完成對領(lǐng)域的建模。搜索:數(shù)倉建模,維度模型
數(shù)據(jù)挖掘核心技術(shù)
- 等同:hash、skip_hash、歸一化(依賴)、標準化(依賴)
- 相似:simhash(文本)、phash(圖片)、 歐氏距離、余弦距離
- 相關(guān):相關(guān)系數(shù)、歐氏距離、余弦距離
- 關(guān)系推斷:圖計算
如下部分依賴機器學習:
- 聚類
- 預測
- 打標
機器學習核心技術(shù)
大數(shù)據(jù)領(lǐng)域常用機器學習問題:
- 聚類
- 回歸
- 分類
大數(shù)據(jù)領(lǐng)域常用機器學習領(lǐng)域:
- NLP:用于分析文本數(shù)據(jù)
- CV:用于分析圖片、視頻
用戶畫像核心技術(shù)
- 參考google用戶畫像論文
數(shù)據(jù)立方
- 搜索數(shù)據(jù)立方的計算
在線分析引擎與可視化
- 搜索rolap, molap
- 搜索可視化引擎