spark應用開發-開發工具篇

概要

目前Spark官方提供Java,Scala,Python三種語言的API。因為Spark是用Scala開發，而Scala本身是基于JVM的語言，所以Scala和Java的API完整穩定；Python相對不太完整，有些新特性剛開始不支持，但Python語言簡單明了，且省去了編譯打包，用起稍微能方便一些。
本文件將介紹在IDEA+Maven環境下使用Java和Scala的開發Spark和SparkStreaming程序的過程。包括開發工具安裝、配置、scala&java混合項目創建、樣例代碼開發、運行、打包。詳細API介紹不在本文范圍，請查閱官方文檔。

參考資料

官方文檔:http://spark.apache.org/docs/ :英文，所有版本的都在這里面。最權威也比較全面。
漢化的官方文檔 http://ifeve.com/spark/ ：v1.6官方文檔漢化版。1.3.0到1.6之間API之間變化不大，可以參考。

開發工具&&環境

本小節介紹IDEA、scala插件的安裝，如果您已經安裝好了IDEA & Scala插件，請直接跳過這一節。

安裝IDEA

https://www.jetbrains.com/idea/選擇社區版即可，免費的！
IDEA自帶maven，所以不用再單獨下載安裝了:)，也可以不用IDEA自帶的，安裝完成后在在“setting”->"maven"中設置一下即可

注意:
JDK是必須的啦，而且是版本要1.8+哦
maven構建時會根據pom.xml中的配置從網絡倉庫中下載依賴包，所以要聯網，網速要好^_

安裝Scala插件

安裝完成后打開IDEA,選擇"configure"-> "Plugins"

搜索"scala"沒有結果，點擊"Search in repositories"

在搜索結果中選擇"scala" 選擇“install”安裝完成后需要重啟

最新社區版的IDEA在安裝完成后的初始界面就已經提供了"scala插件"的安裝選擇，直接選擇即可
scala插件是在用scala開發Spark程序時所需要，如果只是用java開發，可以不用安裝，考慮到有時候會看scala代碼，有這個插件還是方便很多

Spark WordCount

本小節通過用Scala和Java8分別實現一個簡單的統計單詞個數的程序為例，依次介紹工程創建、編碼、測試運行、打包的完整過程。

創建工程

新建工程
"create new project" -> "maven" ，如下圖

填寫相關信息
創建scala代碼目錄
IDEA的maven工程會默認創建java代碼的目錄，scala代碼目錄需要手工創建，在"main"目錄下新建“scala”目錄，如下圖

將main/scala添加至源代碼目錄
"File"->"project structure"(快捷鍵:ALT+CTRL+SHIFT+S) ->"Modules"->" main/scala" 右鍵單擊，選擇 "Sources" 添加至源代碼目錄如下圖

聲明依賴

使用maven的好處在于只需要在pom.xml聲明依賴，后續工作maven會自動處理，而不需要我們手工下載每個依賴包添加到classpath中，此項目中我們需要在pom.xml中聲明scala庫、scala編譯插件及spark的依賴，在pom.xml中<project>標簽中添加以下內容

<dependencies>
    <!--scala項目需要-->
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-compiler</artifactId>
        <version>2.10.4</version>
        <scope>compile</scope>
    </dependency>
    <!--spark程序依賴-->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>1.6.1</version>
      </dependency>
    </dependencies>
    <build>
        <plugins>
        <!--scala項目需要-->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <!--[maven lifecycle](http://maven.apache.org/guides/introduction/introduction-to-the-lifecycle.html)-->
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

注意:開發依賴的spark版本和scala的版本要兼容，<artifactId>spark-core_${scala.binary.version}</artifactId>，${scala.binary.version}要和spark編譯的scala版本一致，官方發布二進制的都是2.10

代碼開發

樣例代碼以統計文件中的單詞個數為例，單詞間以空格分開，計數不區分大小寫。

待統計文件內容很簡單如下x.txt，只有三行：
Java vs Scala
java8 is good
scala is better

scala 版代碼

在scala目錄上右鍵單擊，選擇“NEW”->"Scala Class" 如下圖：

然后在彈出的對話框中輸入類名"WordCount"，選擇“Kind”為"object" 默認為class

//WordCount.scala

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WorkCount").setMaster("local[2]")
    val sc = new SparkContext(conf)
    //從文件中創建RDD
    val rdd = sc.textFile("e:/x.txt")
    //文件中的單詞用空格區分
    rdd.flatMap(_.split("\\s+"))
      .map(w => (w, 1))
      .reduceByKey(_+_)
      .foreach(println)
  }
}

java 版代碼

功能和scala一樣，用JAVA8實現代碼也簡潔了很多，限了需要聲明類型外，幾乎和scala一樣。
右鍵單擊“main/java”新建Java類 JWordCount
//JWordCount.java

    public static void main(String[] args) {
        SparkConf  conf = new SparkConf();
        conf.setAppName("JWordCount");
        conf.setMaster("local[2]");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> rdd = sc.textFile("e:/x.txt");

        rdd.flatMap(line-> Arrays.asList(line.split("\\s+")))
                .mapToPair(w -> new Tuple2<String,Integer>(w.toLowerCase(),1))
                .reduceByKey((a,b)->a+b)
                .foreach(w-> System.out.println(w));
    }

Scala和Java程序運行方式一樣，在左側"project"窗口(或在編輯窗口)中右鍵單擊文件，選擇“Run 'WordCount'”(快捷鍵:Ctrl+Shift+F10)，可以分別運行一下，以下是scala版運行的結果:

src/main/java和src/main/scala下分別放java和scala代碼。可以用java實現基礎代碼，在scala中調用。

一般開發時master不會寫死，會由參數傳進去，這種方式可以邊開發邊測試，不需要部署一套spark集群，提高開發效率。
在IDEA中可以通過"Run"->"Editor Configurations"->"添加 or 選擇主類"-> "program arguments" 來添加程序參數，以方便測試，如果開發環境可以直接連接spark集群，可以直接傳入master的地址，提交至集群中運行。

打包

程序開發完畢不管最終是以spark on yarn 還是spark standalone方式運行，都需要首先要將開發的程序以及依賴打成jar包，然后一般會通過spark-submit這個腳本來提交至集群中運行。在IDEA+Maven的環境下可以用maven來打包，也可以用IDEA來打包，各有各的優點，maven功能強大靈活，可以實現一些復雜的流程和功能，且可以脫離IDEA運行在命令行中，可以和其它自動化工具方便集成，但強大功能配置起來比較麻煩。IDEA自身的打包相對簡單，對日常開發足夠用了。

不管是用java還是scala開發的spark程序，提交到集群時，spark本身及其依賴是不需要打包到程序中的，也就是說要打入程序包中的是除spark以及其依賴之外的包是需要打入程序包中的。像本文的例子程序只依賴scala和spark本身，spark依賴scala，所以只需要打包開發的程序即可，不需要打入其它依賴包，用IDEA或Maven打包都很方便，下面分別介紹兩種打包方式。

maven

打開"maven project": "view"->"tool windows"->"maven project"

在"maven project" 中選擇 "lifecycle"->package 右單擊選擇"Run Maven Build" 運行結束后，工程中的scala的java都會被編碼打包。工程目錄下的target/下會有jar包生成,如下圖。

上面其實是在執行maven的命令mvn package，如果你本地安裝好了maven,可以直接在命令行下到pom.xml所在的目錄中執行各種maven命令，而不用每次都要在IDEA中執行。maven更多內容和各種NB的插件可以問狗哥或度娘！

IDEA打包

IDEA要稍顯復雜，要多點幾次鼠標，需要先創建一個artifacts然后在每次需要打包時在build artifacts中選擇這個artifacts執行即可。

創建一個artifacts
"File"->"project structure"(快捷鍵:ALT+CTRL+SHIFT+S) ->"artifacts"->選擇"+" ->"jar"->"empty"
在"Name"中填入jar名稱，"Output directory"為輸入jar包的路徑，然后在"available elements"中右單擊'helloss compile output'選擇'pack into Output Root'，點'OK'保存，如下圖

'helloss compile output'只是你當前工程中源碼編譯出來的class。如果要打入其它依賴包，也在此選擇加入即可

打包：
“build”->"build artifacts"->"helloss"(你起的名字)->"build"即可

完整代碼見：https://github.com/longforfreedom/hellospark
生產環境中要提交到集群中運行時一般會用spark-submit來提交運行，類似以下語句:spark-submit --master yarn-client --num-executors 10 --executor-memory 20g --executor-cores 10 --class "WordCount" helloss-1.0-SNAPSHOT.jar
集群部署方式不一樣 --master 后面的參數不一樣，部分參數也會有一些不同，更多信息可以參考:http://spark.apache.org/docs/1.6.2/submitting-applications.html ，程序的部署和運行監控后續會有單獨進行介紹。

一般情況開發的spark程序不會以local方式正式運行，但能以這樣方式運行對于開發、測試非常方便，需要注意的是有些情況local方式運行正確，但在集群中不一定能正確運行。因為以local方式運行時Spark的所有角色(Driver,Master,Worker,Executor)f是在本地的同一個JVM中，以多個線程運行，具體的任務執行是一個或多個線程，而集群中運行時是不同機器不同的JVM中運行，需要注意并發問題。

以上介紹完了IDEA+Maven環境下用scala和java各開發了一個簡單單詞計數Spark程序的完整過程，包括開發環境搭建，工程創建，代碼開發，以及測試運行，打包。在這個程序中數據源來自文件，程序運行時需要處理的數據已確定，數據處理完畢，程序結束。但是如果數據是動態的，源源不斷的，比如來自socket或消息隊列中時，要簡單及時的處理這些數據時就需要引入流處理了，下面介紹用spark streaming從kafka中統計單詞個數的示例程序。

SparkStreaming && Kafka WordCount

運行環境

如果您不是很了解kafka或著手頭沒有可以使用的kafka集群，可以用以下方式快速搭建一個測試環境。
本文環境為windows+VMware(Centos)，kafka是在vmware下的centos中運行,centos的hostname:vm-centos-00，IP:192.168.99.130

kafka也可以直接在windows中運行，運行bin/windows下的啟動腳本即可。
注意：如果kafka和消費者和服務器以及zookeeper沒有在同一臺機器上時，需要將kafka server和zookeeper的hostname加到消費者機器的hosts文件中。比如本文中，需要在windows的C:\WINDOWS\System32\drivers\etc\hosts文件中添加一條記錄192.168.99.130 vm-centos-00 否則消費時會出錯

下載kafka： wget http://mirror.bit.edu.cn/apache/kafka/0.9.0.0/kafka_2.10-0.9.0.0.tgz
解壓: tar zxvf kafka_2.10-0.9.0.0.tgz
啟動kafka:

 cd kafka_2.10-0.9.0.0   
 ## 啟動zookeeper
 bin/zookeeper-server-start.sh config/zookeeper.properties
 ## 新開一個終端窗口，啟動kafka
 bin/kafka-server-start.sh config/server.properties

創建topic:bin/kafka-topics.sh --create --zookeeper vm-centos-00:2181 --replication-factor 1 --partitions 3 --topic helloss
啟動生產者bin/kafka-console-producer.sh --broker-list vm-centos-00:9092 --topic helloss
啟動消費者bin/kafka-console-consumer.sh --zookeeper vm-centos-00:2181 --from-beginning --topic helloss
可以在生產者窗戶中輸入消息，在消費者窗口中查看。測試無誤后可以進入下一步

創建工程

這一步和spark程序一樣，為方便起間，本文直接在之前spark程序工程中添加代碼

添加依賴

需要添加scala庫、scala編譯插件是必須的。SparkStreaming和以及與Kafka的集成依賴包也需要引入，在前面spark程序的項目基礎上，在pom.xml中添加以下內容

由于spark streaming依賴spark core，所以在pom.xml中添加spark streaming后，可以不用顯式聲明spark core的依賴，spark core的依賴會自動加進來

 <dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-streaming_2.10</artifactId>
     <version>1.6.1</version>
 </dependency>
<!--與kafka集成時需要-->
  <dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-streaming-kafka_2.10</artifactId>
     <version>1.6.1</version>
 </dependency>

代碼開發

在scala目錄上右鍵單擊，選擇“NEW”->"Scala Class",新增一個名為SSWordCount的object。代碼如下

scala

//SSWordCount.scala

object SSWordCount {
  def main(args: Array[String]): Unit = {
      //方便起間，程序中寫死以local方式運行
    val sparkConf = new SparkConf().setAppName("SSWordCount").setMaster("local[2]")
   //每10秒鐘統計一次接收到單詞數    
    val ssc = new StreamingContext(sparkConf, Seconds(10))
    val topicMap = Map("helloss"-> 1)
    val messages = KafkaUtils.createStream(ssc,"vm-centos-00:2181","ss-group",topicMap)
    val r = messages.map(_._2).flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_)
    //只打印10記錄，實際中一般會保存到HDFS，Redis,Kafka中
    //spark streaming需要一個Output Operations來觸發執行，否則再多的Transformations也不會執行
    r.print(10)
    //啟動Streaming程序
     ssc.start()
    ssc.awaitTermination()
  }
}

//JSSWordCount.java

 public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setAppName("JSSWordCount");
        conf.setMaster("local[2]");
        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(20));
        Map<String, Integer> topicMap = new HashMap<>();
        topicMap.put("helloss",1);
        JavaPairReceiverInputDStream<String, String> messages =
                KafkaUtils.createStream(jssc, "vm-centos-00:2181","ss-group",topicMap);
        JavaPairDStream<String, Integer> r = messages.map(x -> x._2())
                .flatMap(line -> Arrays.asList(line.split("\\s+")))
                .mapToPair(w -> new Tuple2<String, Integer>(w.toLowerCase(), 1))
                .reduceByKey((a, b) -> a + b);
        r.print(10);
        jssc.start();
        jssc.awaitTermination();
    }

完整代碼見：https://github.com/longforfreedom/hellospark
運行程序后，在前面打開的消費者窗口中輸入消息

在IDEA中觀察輸出情況，可以看到類似如下輸出：

可以通過Spark Web UIhttp://localhost:4040/來監控流處理程序運行情況，比如延遲多少批次，已處理完成多少個批次等等,如下圖所示

打包、部署運行和spark程序沒有區別，但需要注意的是spark程序處理結束后會自動退出，釋放資源。而spark streaming處理的是連續不斷的數據，程序不會退出，即使kafka中沒有數據也不會釋放資源，更不會退出，真到人為結束(出錯了當然就結束了:( )

結束

本文只是簡單的介紹了開發工具安裝、配置，并通過兩個簡單的例子介紹了IDEA+Maven環境下使用Java8和Scala的開發spark和spark streaming程序的過程。Spark、Spark Streaming以及Kafka涉及很多知識點，詳細的部署方式以及參數設置，運行監控等后續會慢慢整理介紹。

后續有更新會在github先更新

最后編輯于：2017.12.06 06:37:07

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,606評論 6贊 533
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,582評論 3贊 418
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,540評論 0贊 376
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,028評論 1贊 314
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,801評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,223評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,294評論 3贊 442
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,442評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,976評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,800評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,996評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,543評論 5贊 360
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,233評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,662評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,926評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,702評論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,991評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

spark應用開發-開發工具篇

spark應用開發-開發工具篇

概要

開發工具&&環境

安裝IDEA

安裝Scala插件

Spark WordCount

創建工程

聲明依賴

代碼開發

scala 版代碼

java 版代碼

打包

maven

IDEA打包

SparkStreaming && Kafka WordCount

運行環境

創建工程

添加依賴

代碼開發

scala

結束

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

spark應用開發-開發工具篇

概要

開發工具&&環境

安裝IDEA

安裝Scala插件

Spark WordCount

創建工程

聲明依賴

代碼開發

scala 版代碼

java 版代碼

打包

maven

IDEA打包

SparkStreaming && Kafka WordCount

運行環境

創建工程

添加依賴

代碼開發

scala

結束

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频