Hive的性能優化以及數據傾斜

hive性能優化

一、Map階段的優化:

(控制hive任務中的map數,確定合適的map數,以及每個map處理合適的數據量)

map個數影響因子:

  1. input目錄中文件總個數;
  2. input目錄中每個文件大小;
  3. 集群設置的文件塊大小(默認為128M, 可在hive中通過set dfs.block.size;命令查看,不能在hive中自定義修改);
舉例:
input目錄中有1個文件(300M),會產生3個塊(2個128M,1個44M)即3個Map數。
input目錄中有3個文件(5M,10M,200M),會產生4個塊(5M,10M,128M,72M)即4個Map數。
適當減少Map數:

當一個任務有很多小文件(遠遠小于塊大小128m),會產生很多Map,而一個Map任務啟動和初始化的時間遠遠大于邏輯處理的時間,就會造成很大的資源浪費,而且同時可執行的map數是受限的。

set mapred.max.split.size=100000000;//(100M)
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;//表示執行前進行小文件合并。
//大于128:按照128M分割;100~128按照100分;小于100的進行合并。
適當增加Map數:

當有一個小于128M的文件(其中有上千萬的數據,字段少并且數據單位小),如果map處理的邏輯比較復雜,用一個map任務去做,耗時比較大。

set mapred.reduce.tasks=10;
create table a_1 as 
select * from a distribute by rand();
//表示通過設置Map任務數來中加Map,把a表中的數據均勻的放到a_1目錄下10個文件中。
Map端聚合:
set  hive.map.aggr=true ;(默認為true)

二、Reduce階段的優化:

2.1 指定reduce數量
 set mapred.reduce.tasks=10
2.2未指定reduce數量
param1:hive.exec.reducers.bytes.per.reducer(默認為1000^3)
param2:hive.exec.reducers.max(默認為999)
reduceNum = min(param2,總輸入數據量/param1(reduceNum = InputFileSize / bytes per reducer))

通常情況下,有必要手動指定reducer個數。考慮到map階段的輸出數據量通常會比輸入有大幅減少,因此即使不設定reducer個數,重設參數2還是必要的。依據Hadoop的經驗,可以將參數2設定為0.95*(集群中TaskTracker個數)。

三、其他優化:

Multi-insert & multi-group by

從一份基礎表中按照不同的維度,一次組合出不同的數據

FROM from_statement
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1)] select_statement1 group by key1
INSERT OVERWRITE TABLE tablename2 [PARTITION(partcol2=val2 )] select_statement2 group by key2
#具體實例
FROM pv_users 
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender, count(DISTINCT pv_users.userid) 
GROUP BY pv_users.gender 
INSERT OVERWRITE DIRECTORY '/opt/data/users/pv_age_sum'
SELECT pv_users.age, count(DISTINCT pv_users.userid) 
GROUP BY pv_users.age; 
生成MR Job 個數
生成一個MR Job

多表連接,如果多個表中每個表都使用同一個列進行連接(出現在JOIN子句中),則只會生成一個MR Job。

SELECT a.val, b.val, c.val FROM a 
JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key1)

三個表a、b、c都分別使用了同一個字段進行連接,亦即同一個字段同時出現在兩個JOIN子句中,從而只生成一個MR Job。

生成多個MR Job

多表連接,如果多表中,其中存在一個表使用了至少2個字段進行連接(同一個表的至少2個列出現在JOIN子句中),則會至少生成2個MR Job。

SELECT a.val, b.val, c.val FROM a 
JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key2)

三個表基于2個字段進行連接,這兩個字段b.key1和b.key2同時出現在b表中。連接的過程是這樣的:首先a和b表基于a.key和b.key1進行連接,對應著第一個MR Job;表a和b連接的結果,再和c進行連接,對應著第二個MR Job。

數據傾斜:

傾斜原因:

map輸出數據按key Hash的分配到reduce中,由于key分布不均勻業務數據本身的特性建表時考慮不周某些SQL語句本身就有數據傾斜等原因造成的reduce上的數據量差異過大,所以如何將數據均勻的分配到各個reduce中,就是解決數據傾斜的根本所在。

解決方案:

1. 空值數據傾斜

join的key值發生傾斜,key值包含很多空值或是異常值,這種情況可以對異常值賦一個隨機值來分散key。
案例:在日志中,常會有信息丟失的問題,比如日志中的 user_id,如果取其中的 user_id 和 用戶表中的user_id 關聯,會碰到數據傾斜的問題。

select * from log l
left outer join user u on 
case when (l.user_id is null or I.user_id='-' or I.user_id='0') 
then concat(‘sql_hive’,rand() ) else l.user_id end = u.user_id;
2. Join操作產生數據傾斜
2.1 大表和小表Join

產生原因:Hive在進行join時,按照join的key進行分發,而在join左邊的表的數據會首先讀入內存,如果左邊表的key相對分散,讀入內存的數據會比較小,join任務執行會比較快;而如果左邊的表key比較集中,而這張表的數據量很大,那么數據傾斜就會比較嚴重,而如果這張表是小表,則還是應該把這張表放在join左邊。
解決方式:使用map join讓小的維度表先進內存。在map端完成reduce。
在0.7.0版本之前:需要在sql中使用 /*+ MAPJOIN(smallTable) */ ;

SELECT /*+ MAPJOIN(b) */ a.key, a.value
FROM a
JOIN b ON a.key = b.key;

在0.7.0版本之后:可以配置hive.auto.convert.join

配置項 缺省值 配置說明
hive.auto.convert.join (0.7.0-0.10.0)false; (0.11.0-)true 注意:hive-default.xml模板中錯誤地將默認設置為false,在Hive 0.11.0到0.13.1
hive.smalltable.filesize(0.7.0) or hive.mapjoin.smalltable.filesize(0.8.1) 25000000 默認值為2500000(25M),通過配置該屬性來確定使用該優化的表的大小,如果表的大小小于此值就會被加載進內存中

注意:使用默認啟動該優化的方式如果出現默名奇妙的BUG(比如MAPJOIN并不起作用),就將以下兩個屬性置為fase手動使用MAPJOIN標記來啟動該優化

hive.auto.convert.join=false(關閉自動MAPJOIN轉換操作)
hive.ignore.mapjoin.hint=false(不忽略MAPJOIN標記)

對于以下查詢是不支持使用方法二(MAPJOIN標記)來啟動該優化的

select /*+MAPJOIN(smallTableTwo)*/ idOne, idTwo, value FROM
  ( select /*+MAPJOIN(smallTableOne)*/ idOne, idTwo, value FROM
    bigTable JOIN smallTableOne on (bigTable.idOne = smallTableOne.idOne)                                                  
  ) firstjoin                                                            
  JOIN                                                                 
  smallTableTwo ON (firstjoin.idTwo = smallTableTwo.idTwo)  

但是,如果使用的是方法一即沒有MAPJOIN標記則以上查詢語句將會被作為兩個MJ執行,進一步的,如果預先知道表大小是能夠被加載進內存的,則可以通過以下屬性來將兩個MJ合并成一個MJ

hive.auto.convert.join.noconditionaltask:Hive在基于輸入文件大小的前提下將普通JOIN轉換成MapJoin,
并是否將多個MJ合并成一個
hive.auto.convert.join.noconditionaltask.size:
多個MJ合并成一個MJ時,其表的總的大小須小于該值,同時hive.auto.convert.join.noconditionaltask必須為true
2.2 大表和大表Join

產生原因:業務數據本身的特性,導致兩個表都是大表。
解決方式:業務削減。
案例:user 表有 500w+ 的記錄,把 user 分發到所有的 map 上也是個不小的開銷,而且 map join 不支持這么大的小表。如果用普通的 join,又會碰到數據傾斜的問題。

select * from log l left outer join user u
 on l.user_id = u.user_id;

解決方法:當天登陸的用戶其實很少,先只查詢當天登錄的用戶,log里user_id有上百萬個,這就又回到原來map join問題。所幸,每日的會員uv不會太多,有交易的會員不會太多,有點擊的會員不會太多,有傭金的會員不會太多等等。所以這個方法能解決很多場景下的數據傾斜問題。

select /*+mapjoin(u2)*/* from log l2
left outer join
 (
select  /*+mapjoin(l1)*/u1.*
from ( select distinct user_id from log ) l1
join user u1 on l1.user_id = u1.user_id
) u2
on l2.user_id = u2.user_id;
3. count distinct 聚 合 時 存 在 大 量 特 殊 值

產生原因: 做count distinct時,該字段存在大量值為NULL或空的記錄。
解決方式: 做count distinct時,將值為空的情況單獨處理,如果是計算count distinct,可以不用處理,直接過濾,在最后結果中加1。如果還有其他計算,需要進行group by,可以先將值為空的記錄單獨處理,再和其他計算結果進行union。
案例
1.只計算count distinct

select cast(count(distinct user_id)+1 as bigint) as user_cnt
from user
where user_id is not null and user_id <> '';

2.計算完count distinct 后面還有 group by。同一個reduce上進行distinct操作時壓力很大,先將值為空的記錄單獨處理,再和其他計算結果進行union。
在Hive中,經常遇到count(distinct)操作,這樣會導致最終只有一個reduce,我們可以先group 再在外面包一層count,就可以了。

select day,
count(case when type='session' then 1 else null end) as session_cnt,
count(case when type='user' then 1 else null end) as user_cnt
from (
  select day,type
  from (
    select day,session_id,'session' as type from log
    union all
    select day user_id,'user' as type from log
  )
  group by day,type
)t1 
group by day;
4. group by 產生傾斜的問題
set hive.map.aggr=true

開啟map端combiner:在Map端做combine,若map各條數據基本上不一樣, 聚合無意義,通過如下參數設置。

hive.groupby.mapaggr.checkinterval = 100000 (默認)
hive.map.aggr.hash.min.reduction=0.5(默認)

解釋:預先取100000條數據聚合,如果聚合后的條數小于100000*0.5,則不再聚合。

set hive.groupby.skewindata=true;//決定  group by 操作是否支持傾斜數據。

注意:只能對單個字段聚合。
控制生成兩個MR Job,第一個MR Job Map的輸出結果隨機分配到reduce中減少某些key值條數過多某些key條數過小造成的數據傾斜問題。
在第一個 MapReduce 中,map 的輸出結果集合會隨機分布到 reduce 中, 每個reduce 做部分聚合操作,并輸出結果。這樣處理的結果是,相同的 Group By Key 有可能分發到不同的reduce中,從而達到負載均衡的目的;
第二個 MapReduce 任務再根據預處理的數據結果按照 Group By Key 分布到 reduce 中(這個過程可以保證相同的 Group By Key 分布到同一個 reduce 中),最后完成最終的聚合操作。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,316評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,481評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,241評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,939評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,697評論 6 409
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,182評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,247評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,406評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,933評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,772評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,973評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,516評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,209評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,638評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,866評論 1 285
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,644評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,953評論 2 373