Apache Doris 數(shù)據(jù)建模之 Aggregate Key 模型

了解 Doris 數(shù)據(jù)模型對于我們使用 Doris 來解決我們業(yè)務問題非常重要，這個系列我們將詳細介紹 Doris 的三種數(shù)據(jù)模型及 Doris 數(shù)據(jù)分區(qū)分桶的一些策略，幫助用戶更好的使用 Doris 。

這個系列我會講解 Doris 的三種數(shù)據(jù)模型及在這三種數(shù)據(jù)模型之上的 Rollup，物化視圖及前綴索引。還有在這個三種數(shù)據(jù)模型之上的數(shù)據(jù)分區(qū)分桶的策略。

我們知道在 Doris 中，數(shù)據(jù)以表（Table）的形式進行邏輯上的描述。一張表包括行（Row）和列（Column）。Row 即用戶的一行數(shù)據(jù)。Column 用于描述一行數(shù)據(jù)中不同的字段。

列可以劃分為兩類：鍵 Key 和值 Value。從業(yè)務角度來看，鍵和值對應的就是維度列和指標列

Doris 針對不同場景提供了三種數(shù)據(jù)模型

Aggregate （聚合模型) ：將表中的列分為了Key和Value兩種，數(shù)據(jù)會根據(jù)維度列進行分組，并對指標列進行聚合。
Unique （唯一主鍵模型)：這個模型一般我們是在對接業(yè)務系統(tǒng) RDS 的時候，需要 Doris 數(shù)據(jù)和業(yè)務數(shù)據(jù)保持一致，支持Upsert、Delete等操作
Duplicate （明細模型）：這個模型不保證數(shù)據(jù)唯一性（如果你數(shù)據(jù)重復導入兩次就會重復），數(shù)據(jù)既沒有主鍵，也沒有聚合需求，一般情況下我們使用這個模型

聚合模型特點

一個正常的模型它肯定會把明細的數(shù)據(jù)存儲在一個數(shù)據(jù)庫中，也就是存在 Doris 中。但是因為 Doris 它最早是給鳳巢的一個廣告報表做的，廣告報表有一個很大的特點，就是它只關心統(tǒng)計分析的結果，而不太關心明細的數(shù)據(jù)，所以 Doris 最早一代的數(shù)據(jù)模型，是一個聚合的模型。

聚合模型的特點就是將表中的列分為了Key和Value兩種。 Key 就是數(shù)據(jù)的維度列，比如時間，地區(qū)等等。 Value 則是數(shù)據(jù)的指標列，比如點擊量，花費等。每個指標列還會有自己的聚合函數(shù)，包括sum、min、max和bitmap_union 等。數(shù)據(jù)會根據(jù)維度列進行分組，并對指標列進行聚合。如下圖：

image.png

通過上面的圖我們可以看到，這是一個典型的用戶信息和訪問行為的事實表。在一般星型模型中，用戶信息和訪問行為一般分別存放在維度表和事實表中。這里我們?yōu)榱烁臃奖愕慕忉?Doris 的數(shù)據(jù)模型，將兩部分信息統(tǒng)一存放在一張表中。

這個表我們是按照：user_id,date,city,age,sex 來統(tǒng)計用戶最后訪問時間、用戶總消費、用戶最大停留時間、最小停留時間

表中的列按照是否設置了 IndexKeysType 是 AGG_KEYS 表示是聚合模型，分為 Key (維度列) 和 Value（指標列）。

這里我們 Key 列是 true 表示這個字段是 Key 列，false 的表示 Value 列，所有的 value 列我們在建表的時候指定他們的聚合類型（AggregationType）

上面這個對應的建表語句如下：

CREATE TABLE  example_tbl_02
(
    `user_id` LARGEINT NOT NULL COMMENT "用戶id",
    `date` DATE NOT NULL COMMENT "數(shù)據(jù)灌入日期時間",
    `city` VARCHAR(20) COMMENT "用戶所在城市",
    `age` SMALLINT COMMENT "用戶年齡",
    `sex` TINYINT COMMENT "用戶性別",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用戶最后一次訪問時間",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用戶總消費",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用戶最大停留時間",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用戶最小停留時間"
)
AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 1
PROPERTIES (
    "replication_allocation" = "tag.location.default: 1"
);

我們插入幾條數(shù)據(jù)：

| user_id | date | city | age | sex | last_visit_date | cost | max_dwell_time | min_dwell_time |
| 10000 | 2017-10-01 | 北京 | 20 | 0 | 2017-10-01 06:00:00 | 20 | 10 | 10 |
| 10000 | 2017-10-01 | 北京 | 20 | 0 | 2017-10-01 07:00:00 | 15 | 2 | 2 |
| 10001 | 2017-10-01 | 北京 | 30 | 1 | 2017-10-01 17:05:45 | 2 | 22 | 22 |
| 10002 | 2017-10-02 | 上海 | 20 | 1 | 2017-10-02 12:59:12 | 200 | 5 | 5 |
| 10003 | 2017-10-02 | 廣州 | 32 | 0 | 2017-10-02 11:20:00 | 30 | 11 | 11 |
| 10004 | 2017-10-01 | 深圳 | 35 | 0 | 2017-10-01 10:00:15 | 100 | 3 | 3 |
| 10004 | 2017-10-03 | 深圳 | 35 | 0 | 2017-10-03 10:20:22 | 11 | 6 | 6 |

上面這個數(shù)據(jù)中我們可以看到，前兩行的數(shù)據(jù) Key 是完全一致的，后面 Value 字段應該按照我們建表時候指定的聚合方式進行自動完成數(shù)據(jù)聚合，我們執(zhí)行下面的語句插入數(shù)據(jù)，看看是否和我們預想的一致：

insert into example_tbl_02 values
(10000,"2017-10-01","北京",20,0,"2017-10-01 06:00:00",20,10,10),
(10000,"2017-10-01","北京",20,0,"2017-10-01 07:00:00",15,2,2),
(10001,"2017-10-01","北京",30,1,"2017-10-01 17:05:45",2,22,22),
(10002,"2017-10-02","上海",20,1,"2017-10-02 12:59:12",200,5,5),
(10003,"2017-10-02","廣州",32,0,"2017-10-02 11:20:00",30,11,11),
(10004,"2017-10-01","深圳",35,0,"2017-10-01 10:00:15",100,3,3),
(10004,"2017-10-03","深圳",35,0,"2017-10-03 10:20:22",11,6,6);

通過下圖來查看我們最后執(zhí)行后的數(shù)據(jù)

image.png

聚合模型支持的聚合方式

當我們導入數(shù)據(jù)時，對于 Key 列相同的行會聚合成一行，而 Value 列會按照設置的 AggregationType 進行聚合。 AggregationType 目前有以下幾種聚合方式和agg_state：

SUM：求和，多行的 Value 進行累加。
REPLACE：替代，下一批數(shù)據(jù)中的 Value 會替換之前導入過的行中的 Value。
MAX：保留最大值。
MIN：保留最小值。
REPLACE_IF_NOT_NULL：非空值替換。和 REPLACE 的區(qū)別在于對于null值，不做替換，這種聚合方式適用于部分列更新。
HLL_UNION：HLL 類型的列的聚合方式，通過 HyperLogLog 算法聚合。
BITMAP_UNION：BIMTAP 類型的列的聚合方式，進行位圖的并集聚合。

聚合模型使用場景

我們知道需要再建表的時候指定數(shù)據(jù)模型，一旦創(chuàng)建表后期不能修改數(shù)據(jù)模型，如果你建表的時候沒有指定數(shù)據(jù)模型默認是明細模型 (Duplicate Key).

Aggregate 模型可以通過預聚合，極大地降低聚合查詢時所需掃描的數(shù)據(jù)量和查詢的計算量，非常適合有固定模式的報表類查詢場景。但是該模型對 count(*) 查詢很不友好。同時因為固定了 Value 列上的聚合方式，在進行其他類型的聚合查詢時，需要考慮語意正確性
在數(shù)據(jù)分析領域，有很多需要對數(shù)據(jù)進?統(tǒng)計和匯總操作的場景，如需要分析?站和 APP 訪問流量，統(tǒng)計??的訪問總時?，訪問總次數(shù)。或者像?商需要為?告主提供?告點擊的總流量，展?總量，消費統(tǒng)計等指標。在這些不需要保存明細數(shù)據(jù)的場景，只需要按照固定維度和指標進行聚合后的數(shù)據(jù)，通常可以使?聚合模型。
另外再部分列更新場景，如果用戶既需要唯一主鍵約束，又需要更新部分列（例如將多張源表導入到一張 doris 表的情形），則可以考慮使用 Aggregate 模型，同時將非主鍵列的聚合類型設置為 REPLACE_IF_NOT_NULL，不過 Doris 2.0 版本 Unqiue Key 模型開始支持部分列更新，如果你沒有開啟行存情況下，大數(shù)據(jù)量表進行部分列更新對你的 CPU 消耗可能會很高，這個時候如果你沒有特殊的需求，也可以使用聚合模型。Unique Key 模型其實也是聚合模型的一個特例。
聚合模型中不保存明細數(shù)據(jù)，如果你需要保存明細數(shù)據(jù)，就不適合使用聚合模型，建議選擇Unqiue Key 或者 Duplicate Key 模型。

聚合模型限制

在聚合模型中，模型對外展現(xiàn)的，是最終聚合后的數(shù)據(jù)。也就是說，任何還未聚合的數(shù)據(jù)（比如說兩個不同導入批次的數(shù)據(jù)），必須通過某種方式，以保證對外展示的一致性，特別是在聚合模型上做count計算，可能會導致結果不準確，針對這種情況我們怎么去解決。

第一種方式：增加一個 count 列，并且導入數(shù)據(jù)中，該列值恒為 1。則 select count(*) from table; 的結果等價于 select sum(count) from table;。而后者的查詢效率將遠高于前者。不過這種方式也有使用限制，就是用戶需要自行保證，不會重復導入 AGGREGATE KEY 列都相同的行。否則，select sum(count) from table; 只能表述原始導入的行數(shù)，而不是 select count(*) from table; 的語義。

另一種方式：就是 將如上的 count 列的聚合類型改為 REPLACE，且依然值恒為 1。那么 select sum(count) from table; 和 select count(*) from table; 的結果將是一致的。并且這種方式，沒有導入重復行的限制。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Apache Doris 數(shù)據(jù)建模之 Aggregate Key 模型

Apache Doris 數(shù)據(jù)建模之 Aggregate Key 模型

聚合模型特點

聚合模型支持的聚合方式

聚合模型使用場景

聚合模型限制

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Apache Doris 數(shù)據(jù)建模之 Aggregate Key 模型

聚合模型特點

聚合模型支持的聚合方式

聚合模型使用場景

聚合模型限制

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频