大數(shù)據(jù)環(huán)境下互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)倉庫/數(shù)據(jù)平臺(tái)的架構(gòu)之漫談-續(xù) – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2016/07/703.htm
數(shù)據(jù)采集
對于關(guān)系型數(shù)據(jù)庫以及部分NOSQL(Redis、MongoDB)中的數(shù)據(jù),仍然使用DataHub按天、按小時(shí),增量抽取到HDFS,映射到Hive表;
對于日志數(shù)據(jù),使用Flume從日志收集服務(wù)器實(shí)時(shí)抽取到Kafka,再使用Flume,從Kafka抽取到HDFS,映射到Hive表;
離線計(jì)算
離線計(jì)算%80以上使用Hive,部分新業(yè)務(wù)使用SparkSQL,很少一部分老的業(yè)務(wù)仍然使用MR;
離線計(jì)算的結(jié)果,根據(jù)業(yè)務(wù)用途不同,分別保存在Hive、Redis以及業(yè)務(wù)關(guān)系型數(shù)據(jù)庫中;
實(shí)時(shí)計(jì)算
實(shí)時(shí)計(jì)算使用Spark Streaming以及部分Java程序消費(fèi)Kafka中收集的日志數(shù)據(jù),實(shí)時(shí)計(jì)算結(jié)果大多保存在Redis中;
多維分析OLAP
之前基本采用固定報(bào)表、固定計(jì)算、臨時(shí)數(shù)據(jù)提取等方式來滿足業(yè)務(wù)數(shù)據(jù)分析的需求,隨著業(yè)務(wù)發(fā)展,該模式的成本越來越大,也存在很多問題。
現(xiàn)在使用Kylin作為OLAP引擎,數(shù)據(jù)開發(fā)人員在Hive數(shù)據(jù)倉庫中設(shè)計(jì)好事實(shí)表,維度表,在Kylin中設(shè)計(jì)好Cube,每天將數(shù)據(jù)由Hive加載到Kylin,數(shù)據(jù)分析、產(chǎn)品運(yùn)營通過Kylin來完成90%以上的數(shù)據(jù)分析需求,對于一些特別復(fù)雜和定制的需求,才會(huì)提臨時(shí)需求給數(shù)據(jù)開發(fā)。
另外,使用Caravel經(jīng)過簡單的二次開發(fā),作為OLAP的前端,用戶不用寫SQL,即可完成數(shù)據(jù)多維分析與可視化。
機(jī)器學(xué)習(xí)
目前只使用了Spark MLlib提供的機(jī)器學(xué)習(xí)算法,完成了文本分類的需求。
Ad-Hoc查詢
在Hive的基礎(chǔ)上,也提供了SparkSQL的方式,主要是給數(shù)據(jù)開發(fā)以及懂SQL的數(shù)據(jù)分析和運(yùn)營提供更快的Ad-Hoc查詢響應(yīng)。
數(shù)據(jù)可視化
基于Caravel做了二次開發(fā),提供近20種數(shù)據(jù)可視化圖表。
底層基于DataHub、Kylin,用戶還可以自助數(shù)據(jù)接入、自助建模、自助分析與可視化。