關于checkpoint在flink生產的應用

一.簡述

Flink本身為了保證其高可用的特性，以及保證作用的Exactly Once的快速恢復，進而提供了一套強大的checkpoint機制。但是在實際應用中由于對checkpoint的使用不當會帶來不恰當的影響：比如兩次checkpoint的間隔太短，導致應用一直處于checkpoint的狀態下，甚至會導致整個應用變得不可用。接下來會討論下checkpoint相關內容以及優化參數參考

二.checkpoint是否合理參考參數

對checkpoint進行優化，我們需要參考對應的metrics：

Checkpoint間隔時間：
比對前后兩次checkpoint的開始時間，是否存在間隔？有則代表當前checkpoint設置時間比較合理。
數據Buffered大小：
關于buffered主要是為了flink處理過程會存在一些慢數據流的stream barriers而設計的，通過該參數可以參考當前flink處理流慢數據的比例

checkpoint參數

接下來看看如何合理設置相關的內容

2.1 Checkpoint間隔時間

在實際應用情況下，面對超大數據集規模，每次checkpoint的時間都超過我們設定的或系統的時間，結果會如何？
那就是應用會一直處于checkpoint，甚至導致整個應用都變得不可用了。面對該情況我們提供的方案比如：
1.設置并行checkpoint數？？？
2.增量checkpoint：每次只checkpoint出對前一次checkpoint內的狀態數據的增量改動。然后恢復的時候做狀態改動的重放？？？
這里我們來說下第三種方案：強制設置兩次checkpoint的空閑間隔

checkpoint的間隔

通過flink提供的config參數來控制,通過該方法我們就可以控制前后checkpoint的間隔不會導致應用一直處于checkpoint。

getCheckpointConfig().setMinPauseBetweenCheckpoints(milliseconds)

該參數并未沒有徹底解決大規模狀態集下checkpoint慢的問題，只是降低慢帶來的風險和影響，接下來看看如果解決大規模數據集下的“慢”問題本質方案

2.2 外部state的存儲

一般來說checkpoint之所以慢還是因為數據規模大，那如果我們能找到一種更快的存儲狀態的介質（或者策略），來使得這個過程變快。比如可以選擇更加高效的外部存儲介質來做State的存儲（比如RocksDB），而不僅限于存儲于有限的內存空間里，甚至完全落地到磁盤上。

2.2.1 資源設置

由于checkpoint是在每個task上先做數據checkpoint，然后在外部存儲中做checkpoint持久化。在總狀態數據相對固定的情況下，若是減少每個task平均所checkpoint的數據，那么相應地checkpoint的總時間也會變短。所以為每個task設置更多的并行度來加速checkpoint的執行過程。
例如2000W的數據設定100個parallelism，平均=2000W/100；若是將parallelism增大變成200，則平均=2000W/200，相對每份需要處理的數據比較小些，處理的時長就會變少

2.2.2 task恢復

由于checkpoint是分散在每個task上執行，再做匯總持久化。這些task做的checkpoint數據在后面應用恢復時包括并行度擴增或減少時能夠重新打散分布。
那么每個task會為了支持快速恢復，會同時寫checkpoint數據到本地磁盤和遠程分布式存儲，只要task本地的checkpoint數據沒有被破壞，系統在應用恢復時會優先加載本地的checkpoint數據，這樣就大大減少了遠程拉取狀態數據的過程。

checkpoint task數據存儲

2.2.3 常見的配置參數

// checkpoint周期
env.enableCheckpointing(1000);
// checkpoint mode
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
?
// checkpoint執行有效期：要么1min完成 要么1min放棄
env.getCheckpointConfig().setCheckpointTimeout(60000);
?
// 確保checkpoint時間空閑間隔500ms
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
?
// 允許同一時間只存在一個checkpoint
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
?
// job cancellation啟用保留的外部檢查點
env.getCheckpointConfig().enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
?
// This determines if a task will be failed if an error occurs in the execution of the task’s checkpoint procedure.
env.getCheckpointConfig().setFailOnCheckpointingErrors(true);

使用enableCheckpointing方法來設置開啟checkpoint；
可以使用enableCheckpointing(long interval)或enableCheckpointing(long interval, CheckpointingMode mode)：
interval用于指定checkpoint的觸發間隔(單位milliseconds)；
CheckpointingMode默認是CheckpointingMode.EXACTLY_ONCE，也可以指定為CheckpointingMode.AT_LEAST_ONCE或者getCheckpointConfig().setCheckpointingMode來設置CheckpointingMode，一般對于超低延遲的應用(大概幾毫秒)可以使用CheckpointingMode.AT_LEAST_ONCE，其他大部分應用使用CheckpointingMode.EXACTLY_ONCE就可以
checkpointTimeout用于指定checkpoint執行的超時時間(單位milliseconds)，超時沒完成就會被abort掉
minPauseBetweenCheckpoints用于指定checkpoint coordinator上一個checkpoint完成之后最小等多久可以出發另一個checkpoint，當指定這個參數時，maxConcurrentCheckpoints的值為1
maxConcurrentCheckpoints用于指定運行中的checkpoint最多可以有多少個，用于包裝topology不會花太多的時間在checkpoints上面；如果有設置了minPauseBetweenCheckpoints，則maxConcurrentCheckpoints這個參數就不起作用了(大于1的值不起作用)
enableExternalizedCheckpoints用于開啟checkpoint的外部持久化，但是在job失敗的時候不會自動清理，需要自己手工清理state；ExternalizedCheckpointCleanup用于指定當job canceled的時候externalized checkpoint該如何清理，DELETE_ON_CANCELLATION的話，在job canceled的時候會自動刪除externalized state，但是如果是FAILED的狀態則會保留；RETAIN_ON_CANCELLATION則在job canceled的時候會保留externalized checkpoint state
failOnCheckpointingErrors用于指定在checkpoint發生異常的時候，是否應該fail該task，默認為true，如果設置為false，則task會拒絕checkpoint然后繼續運行

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

關于checkpoint在flink生產的應用

關于checkpoint在flink生產的應用

一.簡述

二.checkpoint是否合理參考參數

2.1 Checkpoint間隔時間

2.2 外部state的存儲

2.2.1 資源設置

2.2.2 task恢復

2.2.3 常見的配置參數

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

關于checkpoint在flink生產的應用

一.簡述

二.checkpoint是否合理參考參數

2.1 Checkpoint間隔時間

2.2 外部state的存儲

2.2.1 資源設置

2.2.2 task恢復

2.2.3 常見的配置參數

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频