久久影院午夜理论片无码,欧洲性开放,无码亚洲一区二区三区6080

hive性能優化

一、Map階段的優化：

（控制hive任務中的map數，確定合適的map數，以及每個map處理合適的數據量）。

map個數影響因子：

input目錄中文件總個數；
input目錄中每個文件大小；
集群設置的文件塊大小(默認為128M, 可在hive中通過set dfs.block.size;命令查看，不能在hive中自定義修改)；

舉例：
input目錄中有1個文件（300M），會產生3個塊（2個128M，1個44M）即3個Map數。
input目錄中有3個文件（5M,10M,200M），會產生4個塊（5M,10M,128M,72M）即4個Map數。

適當減少Map數：

當一個任務有很多小文件（遠遠小于塊大小128m）,會產生很多Map，而一個Map任務啟動和初始化的時間遠遠大于邏輯處理的時間，就會造成很大的資源浪費，而且同時可執行的map數是受限的。

set mapred.max.split.size=100000000;//（100M）
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;//表示執行前進行小文件合并。
//大于128:按照128M分割；100~128按照100分；小于100的進行合并。

適當增加Map數：

當有一個小于128M的文件(其中有上千萬的數據，字段少并且數據單位小)，如果map處理的邏輯比較復雜，用一個map任務去做，耗時比較大。

set mapred.reduce.tasks=10;
create table a_1 as 
select * from a distribute by rand();
//表示通過設置Map任務數來中加Map，把a表中的數據均勻的放到a_1目錄下10個文件中。

Map端聚合：

set  hive.map.aggr=true ;（默認為true)

二、Reduce階段的優化：

2.1 指定reduce數量

 set mapred.reduce.tasks=10

2.2未指定reduce數量

param1:hive.exec.reducers.bytes.per.reducer（默認為1000^3）
param2:hive.exec.reducers.max（默認為999）
reduceNum = min(param2，總輸入數據量/param1(reduceNum = InputFileSize / bytes per reducer))

通常情況下，有必要手動指定reducer個數。考慮到map階段的輸出數據量通常會比輸入有大幅減少，因此即使不設定reducer個數，重設參數2還是必要的。依據Hadoop的經驗，可以將參數2設定為0.95*(集群中TaskTracker個數)。

三、其他優化：

Multi-insert & multi-group by

從一份基礎表中按照不同的維度，一次組合出不同的數據

FROM from_statement
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1)] select_statement1 group by key1
INSERT OVERWRITE TABLE tablename2 [PARTITION(partcol2=val2 )] select_statement2 group by key2
#具體實例
FROM pv_users 
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender, count(DISTINCT pv_users.userid) 
GROUP BY pv_users.gender 
INSERT OVERWRITE DIRECTORY '/opt/data/users/pv_age_sum'
SELECT pv_users.age, count(DISTINCT pv_users.userid) 
GROUP BY pv_users.age;

生成MR Job 個數

生成一個MR Job

多表連接，如果多個表中每個表都使用同一個列進行連接（出現在JOIN子句中），則只會生成一個MR Job。

SELECT a.val, b.val, c.val FROM a 
JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key1)

三個表a、b、c都分別使用了同一個字段進行連接，亦即同一個字段同時出現在兩個JOIN子句中，從而只生成一個MR Job。

生成多個MR Job

多表連接，如果多表中，其中存在一個表使用了至少2個字段進行連接（同一個表的至少2個列出現在JOIN子句中），則會至少生成2個MR Job。

SELECT a.val, b.val, c.val FROM a 
JOIN b ON (a.key = b.key1) 
JOIN c ON (c.key = b.key2)

三個表基于2個字段進行連接，這兩個字段b.key1和b.key2同時出現在b表中。連接的過程是這樣的：首先a和b表基于a.key和b.key1進行連接，對應著第一個MR Job；表a和b連接的結果，再和c進行連接，對應著第二個MR Job。

數據傾斜：

傾斜原因：

map輸出數據按key Hash的分配到reduce中，由于key分布不均勻、業務數據本身的特性、建表時考慮不周、某些SQL語句本身就有數據傾斜等原因造成的reduce上的數據量差異過大，所以如何將數據均勻的分配到各個reduce中，就是解決數據傾斜的根本所在。

解決方案：

1. 空值數據傾斜

join的key值發生傾斜，key值包含很多空值或是異常值，這種情況可以對異常值賦一個隨機值來分散key。
案例：在日志中，常會有信息丟失的問題，比如日志中的 user_id，如果取其中的 user_id 和用戶表中的user_id 關聯，會碰到數據傾斜的問題。

select * from log l
left outer join user u on 
case when (l.user_id is null or I.user_id='-' or I.user_id='0') 
then concat(‘sql_hive’,rand() ) else l.user_id end = u.user_id;

2. Join操作產生數據傾斜

2.1 大表和小表Join

產生原因：Hive在進行join時，按照join的key進行分發，而在join左邊的表的數據會首先讀入內存，如果左邊表的key相對分散，讀入內存的數據會比較小，join任務執行會比較快；而如果左邊的表key比較集中，而這張表的數據量很大，那么數據傾斜就會比較嚴重，而如果這張表是小表，則還是應該把這張表放在join左邊。
解決方式：使用map join讓小的維度表先進內存。在map端完成reduce。
在0.7.0版本之前：需要在sql中使用 /*+ MAPJOIN(smallTable) */ ；

SELECT /*+ MAPJOIN(b) */ a.key, a.value
FROM a
JOIN b ON a.key = b.key;

在0.7.0版本之后：可以配置hive.auto.convert.join。

配置項	缺省值	配置說明
hive.auto.convert.join	(0.7.0-0.10.0)false; (0.11.0-)true	注意：hive-default.xml模板中錯誤地將默認設置為false，在Hive 0.11.0到0.13.1
hive.smalltable.filesize(0.7.0) or hive.mapjoin.smalltable.filesize(0.8.1)	25000000	默認值為2500000(25M),通過配置該屬性來確定使用該優化的表的大小，如果表的大小小于此值就會被加載進內存中

注意：使用默認啟動該優化的方式如果出現默名奇妙的BUG(比如MAPJOIN并不起作用),就將以下兩個屬性置為fase手動使用MAPJOIN標記來啟動該優化

hive.auto.convert.join=false(關閉自動MAPJOIN轉換操作)
hive.ignore.mapjoin.hint=false(不忽略MAPJOIN標記)

對于以下查詢是不支持使用方法二(MAPJOIN標記)來啟動該優化的

select /*+MAPJOIN(smallTableTwo)*/ idOne, idTwo, value FROM
  ( select /*+MAPJOIN(smallTableOne)*/ idOne, idTwo, value FROM
    bigTable JOIN smallTableOne on (bigTable.idOne = smallTableOne.idOne)                                                  
  ) firstjoin                                                            
  JOIN                                                                 
  smallTableTwo ON (firstjoin.idTwo = smallTableTwo.idTwo)

但是，如果使用的是方法一即沒有MAPJOIN標記則以上查詢語句將會被作為兩個MJ執行，進一步的，如果預先知道表大小是能夠被加載進內存的，則可以通過以下屬性來將兩個MJ合并成一個MJ

hive.auto.convert.join.noconditionaltask：Hive在基于輸入文件大小的前提下將普通JOIN轉換成MapJoin，
并是否將多個MJ合并成一個
hive.auto.convert.join.noconditionaltask.size：
多個MJ合并成一個MJ時，其表的總的大小須小于該值，同時hive.auto.convert.join.noconditionaltask必須為true

2.2 大表和大表Join

產生原因：業務數據本身的特性，導致兩個表都是大表。
解決方式：業務削減。
案例：user 表有 500w+ 的記錄，把 user 分發到所有的 map 上也是個不小的開銷，而且 map join 不支持這么大的小表。如果用普通的 join，又會碰到數據傾斜的問題。

select * from log l left outer join user u
 on l.user_id = u.user_id;

解決方法：當天登陸的用戶其實很少,先只查詢當天登錄的用戶，log里user_id有上百萬個，這就又回到原來map join問題。所幸，每日的會員uv不會太多，有交易的會員不會太多，有點擊的會員不會太多，有傭金的會員不會太多等等。所以這個方法能解決很多場景下的數據傾斜問題。

select /*+mapjoin(u2)*/* from log l2
left outer join
 (
select  /*+mapjoin(l1)*/u1.*
from ( select distinct user_id from log ) l1
join user u1 on l1.user_id = u1.user_id
) u2
on l2.user_id = u2.user_id;

3. count distinct 聚合時存在大量特殊值

產生原因：做count distinct時，該字段存在大量值為NULL或空的記錄。
解決方式：做count distinct時，將值為空的情況單獨處理，如果是計算count distinct，可以不用處理，直接過濾，在最后結果中加1。如果還有其他計算，需要進行group by，可以先將值為空的記錄單獨處理，再和其他計算結果進行union。
案例：
1.只計算count distinct

select cast(count(distinct user_id)+1 as bigint) as user_cnt
from user
where user_id is not null and user_id <> '';

2.計算完count distinct 后面還有 group by。同一個reduce上進行distinct操作時壓力很大,先將值為空的記錄單獨處理，再和其他計算結果進行union。
在Hive中，經常遇到count（distinct）操作，這樣會導致最終只有一個reduce，我們可以先group 再在外面包一層count，就可以了。

select day,
count(case when type='session' then 1 else null end) as session_cnt,
count(case when type='user' then 1 else null end) as user_cnt
from (
  select day,type
  from (
    select day,session_id,'session' as type from log
    union all
    select day user_id,'user' as type from log
  )
  group by day,type
)t1 
group by day;

4. group by 產生傾斜的問題

set hive.map.aggr=true

開啟map端combiner:在Map端做combine,若map各條數據基本上不一樣, 聚合無意義，通過如下參數設置。

hive.groupby.mapaggr.checkinterval = 100000 (默認)
hive.map.aggr.hash.min.reduction=0.5(默認)

解釋：預先取100000條數據聚合,如果聚合后的條數小于100000*0.5，則不再聚合。

set hive.groupby.skewindata=true；//決定  group by 操作是否支持傾斜數據。

注意：只能對單個字段聚合。
控制生成兩個MR Job,第一個MR Job Map的輸出結果隨機分配到reduce中減少某些key值條數過多某些key條數過小造成的數據傾斜問題。
在第一個 MapReduce 中，map 的輸出結果集合會隨機分布到 reduce 中，每個reduce 做部分聚合操作，并輸出結果。這樣處理的結果是，相同的 Group By Key 有可能分發到不同的reduce中，從而達到負載均衡的目的；
第二個 MapReduce 任務再根據預處理的數據結果按照 Group By Key 分布到 reduce 中（這個過程可以保證相同的 Group By Key 分布到同一個 reduce 中），最后完成最終的聚合操作。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Hive的性能優化以及數據傾斜

Hive的性能優化以及數據傾斜

hive性能優化

一、Map階段的優化：

適當減少Map數：

適當增加Map數：

Map端聚合：

二、Reduce階段的優化：

2.1 指定reduce數量

2.2未指定reduce數量

三、其他優化：

Multi-insert & multi-group by

生成MR Job 個數

生成一個MR Job

生成多個MR Job

數據傾斜：

傾斜原因：

解決方案：

1. 空值數據傾斜

2. Join操作產生數據傾斜

2.1 大表和小表Join

2.2 大表和大表Join

3. count distinct 聚合時存在大量特殊值

4. group by 產生傾斜的問題

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Hive的性能優化以及數據傾斜

hive性能優化

一、Map階段的優化：

適當減少Map數：

適當增加Map數：

Map端聚合：

二、Reduce階段的優化：

2.1 指定reduce數量

2.2未指定reduce數量

三、其他優化：

Multi-insert & multi-group by

生成MR Job 個數

生成一個MR Job

生成多個MR Job

數據傾斜：

傾斜原因：

解決方案：

1. 空值數據傾斜

2. Join操作產生數據傾斜

2.1 大表和小表Join

2.2 大表和大表Join

3. count distinct 聚 合 時 存 在 大 量 特 殊 值

4. group by 產生傾斜的問題

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

3. count distinct 聚合時存在大量特殊值