Spark原理 | 任務(wù)執(zhí)行流程

Spark任務(wù)從提交到執(zhí)行完成有很多步驟,整體上可以劃分為三個階段:

  • 應(yīng)用的提交;

  • 執(zhí)行環(huán)境的準備;

  • 任務(wù)的調(diào)度和執(zhí)行。

Spark任務(wù)執(zhí)行流程

一、執(zhí)行流程概述

Spark有多種不同的運行模式,在不同模式下這三個階段的執(zhí)行流程也不太相同。

以on yarn模式為例,Spark應(yīng)用提交shell命令如下:

$SPARK_HOME/bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \
 --master yarn \
 --deploy-mode client \
 $SPARK_HOME/examples/jars/spark-examples*.jar

Spark應(yīng)用執(zhí)行過程可以劃分如下三個階段:

第一步:應(yīng)用的提交

  • Driver端:

  • 解析參數(shù),驗證參數(shù)合法性

  • 檢查和準備依賴jar包

  • 確定運行的主類,也就是應(yīng)用的入口

  • Executor端:未創(chuàng)建

第二步:執(zhí)行環(huán)境的準備

  • Driver端:

  • 進入應(yīng)用的main函數(shù),開始執(zhí)行

  • 首先創(chuàng)建SparkContext對象,在創(chuàng)建時會執(zhí)行

  • 初始化各個服務(wù)模塊和通信的RPC環(huán)境

  • 向cluster manager申請資源

  • Executor端:

  • 在Worker節(jié)點啟動Executor

  • 初始化Executor,啟動各個服務(wù)模塊

  • 連接到Driver端,匯報Executor的狀態(tài)

第三步:任務(wù)的調(diào)度和執(zhí)行

  • Driver端:

  • 執(zhí)行處理任務(wù)代碼

  • Job分解為Stage,并將Stage劃分為Task

  • 提交Task到Executor端

  • 接受Executor端的狀態(tài)和結(jié)果信息

  • Executor端:

  • 啟動TaskRunner線程,執(zhí)行接收到的Task

  • 向Driver端匯報執(zhí)行狀態(tài)

  • 向Driver端返回執(zhí)行結(jié)果

二、執(zhí)行流程詳解

以如下代碼為例,講解Spark應(yīng)用執(zhí)行的各個階段。

# HelloWorld.scala

import scala.math.random
import org.apache.spark.sql.SparkSession

object HelloWorld {
  def main(args: Array[String]) {
        val spark = SparkSession.builder.appName("HelloWorld").getOrCreate()
        val rdd = spark.sparkContext.parallelize(Seq("Hello", "World"))
        rdd.collect()
    }
}

1、第一階段:應(yīng)用的提交

這個階段主要在Driver端完成,主要目標是:準備依賴jar包并確定Spark應(yīng)用的執(zhí)行主類。具體的任務(wù)包括:

  1. 解析任務(wù)提交的參數(shù),并對參數(shù)進行解析和保存。

  2. 準備任務(wù)啟動參數(shù)制定的依賴文件或者程序包。

  3. 根據(jù)Spark應(yīng)用的執(zhí)行模式和應(yīng)用的編寫語言,來確定執(zhí)行的主類名稱。

  4. 實例化執(zhí)行主類,生成SparkApplication對象,并調(diào)用SparkApplication.start()函數(shù)來運行Spark應(yīng)用(如果是Java/Scala代碼則執(zhí)行Spark應(yīng)用中的main函數(shù))。

注意:第1階段完成時,Driver端并沒有向資源管理平臺申請任何資源,也沒有啟動任何Spark內(nèi)部的服務(wù)。

2、第二階段:執(zhí)行環(huán)境的準備

通過第1階段,已經(jīng)找到了運行在Driver端的Spark應(yīng)用的執(zhí)行主類,并創(chuàng)建了SparkApplication對象:app。此時,在app.start()函數(shù)中會直接調(diào)用主類的main函數(shù)開始執(zhí)行應(yīng)用,從而進入第2階段。

第二階段主要目標是:創(chuàng)建SparkSession(包括SparkContext和SparkEnv),完成資源的申請和Executor的創(chuàng)建。第2階段完成后Task的執(zhí)行環(huán)境就準備好了。

也就是說,第2階段不僅會在Driver端進行初始化,而且還要準備好Executor。這一階段的任務(wù)主要是在Driver端執(zhí)行創(chuàng)建SparkSession的代碼來完成,也就是執(zhí)行下面一行代碼:

val spark = SparkSession.builder.appName("HelloWorld").getOrCreate()

第二階段的Driver端主要完成以下步驟:

  • 創(chuàng)建SparkContext和SparkEnv對象,在創(chuàng)建這兩個對象時,向Cluster Manager申請資源,啟動各個服務(wù)模塊,并對服務(wù)模塊進行初始化。
  • 這些服務(wù)模塊包括:DAG調(diào)度服務(wù),任務(wù)調(diào)度服務(wù),shuffle服務(wù),文件傳輸服務(wù),數(shù)據(jù)塊管理服務(wù),內(nèi)存管理服務(wù)等。

第2階段的Executor端主要完成以下步驟:

  • Driver端向Cluster Manager申請資源,若是Yarn模式會在NodeManager上創(chuàng)建ApplicationMaster,并由ApplicationMaster向Cluster Manager來申請資源,并啟動Container,在Container中啟動Executor。
  • 在啟動Executor時向Driver端注冊BlockManager服務(wù),并創(chuàng)建心跳服務(wù)RPC環(huán)境,通過該RPC環(huán)境向Driver匯報Executor的狀態(tài)信息。

第二階段執(zhí)行完成后的Spark集群狀態(tài)如下:

Spark集群狀態(tài)

3、第三階段:任務(wù)的調(diào)度和執(zhí)行

通過第2階段已經(jīng)完成了Task執(zhí)行環(huán)境的初始化,此時,在Driver端已經(jīng)完成了SparkContext和SparkEnv的創(chuàng)建,資源已經(jīng)申請到了,并且已經(jīng)啟動了Executor。

這一階段會執(zhí)行接下來的數(shù)據(jù)處理的代碼:

val rdd = spark.sparkContext.parallelize(Seq("Hello", "World"))
rdd.collect()

第3階段Driver端主要完成以下步驟:

  • 執(zhí)行Spark的處理代碼,當執(zhí)行map操作時,生成新的RDD;

  • 當執(zhí)行Action操作時,觸發(fā)Job的提交,此時會執(zhí)行以下步驟:

  • 根據(jù)RDD的血緣,把Job劃分成相互依賴的Stage;

  • 把每個Stage拆分成一個或多個Task;

  • 把這些Task提交給已經(jīng)創(chuàng)建好的Executor去執(zhí)行;

  • 獲取Executor的執(zhí)行狀態(tài)信息,直到Executor完成所有Task的執(zhí)行;

  • 獲取執(zhí)行結(jié)果和最終的執(zhí)行狀態(tài)。

參考資料

  1. Spark Scheduler 內(nèi)部原理剖析
  2. 如何理解Spark應(yīng)用的執(zhí)行過程
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,748評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,165評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,595評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,633評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,435評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,943評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,035評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,175評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,713評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,599評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,788評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,303評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,034評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,412評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,664評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,408評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,747評論 2 370

推薦閱讀更多精彩內(nèi)容