大數(shù)據(jù)應用領(lǐng)域與關(guān)鍵技術(shù)

最近開始介入數(shù)據(jù)資產(chǎn)建設工作。要成為數(shù)據(jù)領(lǐng)域的專家甚至高級專家,必須搞清楚大數(shù)據(jù)的應用方向,核心技術(shù)問題和解決方案。

數(shù)據(jù)的應用方向都有哪些?

  • BI報表
  • 商業(yè)/投資/經(jīng)濟分析
  • 金融風控
  • 系統(tǒng)安全
  • 用戶畫像
  • 相關(guān)推薦
  • 其它機器學習任務上游

主要用到的技術(shù),解決的問題

ETL:數(shù)據(jù)摸底、補全、清洗、歸一化、標準化
數(shù)倉建模:三層數(shù)倉、維度模型
數(shù)據(jù)挖掘:等同、相似、相關(guān)、分類、聚類、預測、打標。以及其它通過數(shù)據(jù)驗證假設的過程。
機器學習:分類、預測、聚類、生成,NLP、CV、Speech
用戶畫像:通過用戶行為,計算用戶標簽。
數(shù)據(jù)立方:將指標在各種維度組合下的值提前計算好,形成數(shù)據(jù)立方。供分析引擎使用。
在線分析引擎
可視化

核心技術(shù)棧對照表:

應用 ETL 數(shù)倉建模 數(shù)據(jù)挖掘 機器學習 用戶畫像 數(shù)據(jù)立方 在線分析引擎 可視化
BI報表 V V V V V
商業(yè)分析 V V V V V
金融風控 V V V V V
系統(tǒng)安全 V V V V V V
用戶畫像 V V V
相關(guān)推薦 V V V
機器學習上游 V V V

ETL核心技術(shù)

通常ETL邏輯是數(shù)據(jù)挖掘的一部分。
這一步的作用是完成數(shù)據(jù)預處理,定義數(shù)據(jù)規(guī)范,完成數(shù)據(jù)歸一化、標準化。提升數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)并處理異常數(shù)據(jù)。

數(shù)倉建模核心技術(shù)

根據(jù)對領(lǐng)域業(yè)務的理解,使用維度表與事實表完成對領(lǐng)域的建模。搜索:數(shù)倉建模,維度模型

數(shù)據(jù)挖掘核心技術(shù)

  • 等同:hash、skip_hash、歸一化(依賴)、標準化(依賴)
  • 相似:simhash(文本)、phash(圖片)、 歐氏距離、余弦距離
  • 相關(guān):相關(guān)系數(shù)、歐氏距離、余弦距離
  • 關(guān)系推斷:圖計算

如下部分依賴機器學習:

  • 聚類
  • 預測
  • 打標

機器學習核心技術(shù)

大數(shù)據(jù)領(lǐng)域常用機器學習問題:

  • 聚類
  • 回歸
  • 分類

大數(shù)據(jù)領(lǐng)域常用機器學習領(lǐng)域:

  • NLP:用于分析文本數(shù)據(jù)
  • CV:用于分析圖片、視頻

用戶畫像核心技術(shù)

  • 參考google用戶畫像論文

數(shù)據(jù)立方

  • 搜索數(shù)據(jù)立方的計算

在線分析引擎與可視化

  • 搜索rolap, molap
  • 搜索可視化引擎
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,283評論 6 530
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 97,947評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,094評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,485評論 1 308
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,268評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,817評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,906評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,039評論 0 285
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,551評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,502評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,662評論 1 366
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,188評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,907評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,304評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,563評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,255評論 3 389
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,637評論 2 370

推薦閱讀更多精彩內(nèi)容

  • 1 知識圖譜構(gòu)建技術(shù) 本節(jié)首先給出知識圖譜的技術(shù)地圖,然后介紹知識圖譜構(gòu)建的關(guān)鍵技術(shù),包括關(guān)系抽取技術(shù)、知識融合技...
    達微閱讀 33,674評論 2 32
  • 大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集...
    change_8b6a閱讀 12,337評論 0 1
  • 久違的晴天,家長會。 家長大會開好到教室時,離放學已經(jīng)沒多少時間了。班主任說已經(jīng)安排了三個家長分享經(jīng)驗。 放學鈴聲...
    飄雪兒5閱讀 7,536評論 16 22
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友。感恩相遇!感恩不離不棄。 中午開了第一次的黨會,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,587評論 0 11
  • 可愛進取,孤獨成精。努力飛翔,天堂翱翔。戰(zhàn)爭美好,孤獨進取。膽大飛翔,成就輝煌。努力進取,遙望,和諧家園。可愛游走...
    趙原野閱讀 2,748評論 1 1