Spark:DataFrame寫HFile (Hbase)一個列族、一個列擴(kuò)展一個列族、多個列

擴(kuò)展:Spark:DataFrame生成HFile 批量導(dǎo)入Hbase

在上一篇博文中遺留了一個問題,就是只能處理DataFrame 的一行一列,雖然給出一個折中的辦法處理多個列,但是對于字段多的DataFrame卻略顯臃腫,經(jīng)過我的研究,實現(xiàn)了從一個列族、一個列到一個列族、多個列擴(kuò)展。
此文章再此記錄實現(xiàn)方法

實現(xiàn)思路:

保存為HFile的關(guān)鍵是下面這個方法

saveAsNewAPIHadoopFile(save_path,
      classOf[ImmutableBytesWritable],
      classOf[KeyValue],
      classOf[HFileOutputFormat2],
      job.getConfiguration)

要使用這個方法就要保證最后的結(jié)果數(shù)據(jù)需要是RDD[(ImmutableBytesWritable, KeyValue)]類型的,所以這就是我們努力前進(jìn)的方向。在這個過程中有幾個問題需要解決
1. 如何一次處理DataFrame 的眾多字段

    val result1: RDD[(ImmutableBytesWritable, Seq[KeyValue])] = resultDataFrame
      .map(row => {
        var kvlist: Seq[KeyValue] = List()
        var rowkey: Array[Byte] = null
        var cn: Array[Byte] = null
        var v: Array[Byte] = null
        var kv: KeyValue = null
        val cf: Array[Byte] = clounmFamily.getBytes //列族
        rowkey = Bytes.toBytes(row.getAs[String]("key")) //key
        for (i <- 1 to (columnsName.length - 1)) {
          cn = columnsName(i).getBytes() //列的名稱
          v = Bytes.toBytes(row.getAs[String](columnsName(i))) //列的值
          //將rdd轉(zhuǎn)換成HFile需要的格式,我們上面定義了Hfile的key是ImmutableBytesWritable,那么我們定義的RDD也是要以ImmutableBytesWritable的實例為key
          kv = new KeyValue(rowkey, cf, cn, v) //封裝一下 rowkey, cf, clounmVale, value
          //
          kvlist = kvlist :+ kv //將新的kv加在kvlist后面(不能反 需要整體有序)
        }
        (new ImmutableBytesWritable(rowkey), kvlist)
      })
  1. 上述代碼中通過map取出每一行row,用一個for循環(huán)通過所有字段的名稱(去除掉“key”這個字段)對每個字段進(jìn)行封裝處理,每處理完一個字段加入kvlist。
  2. 在此處有個地方需要注意的是,我們要保證 kvlist 里面的數(shù)據(jù)整體有序(升序),這里的有序由字段名稱排序和加入 kvlist 的位置來保證,kvlist 通過 :+ 將后一個數(shù)據(jù)放在List的后面,至于字段名稱排序在后面說明。
  3. 至于此處為什么要去除掉key,這是因為我默認(rèn)DataFrame第一個字段就是key,因為需要對所有字段名稱進(jìn)行排序,如果不把key拿出來后續(xù)不知道key在哪里了,如果按照正常走下去,key值也會被當(dāng)成value被保存一次,這顯然不符合我們的要求,當(dāng)然有興趣的同學(xué)可以自己實現(xiàn)更全面的方法。

2. 如何對DataFrame 的所有字段名排序

 var columnsName: Array[String] = resultDataFrame.columns //獲取列名 第一個為key
    columnsName = columnsName.drop(1).sorted //把key去掉  因為要排序
  1. 通過resultDataFrame.columns獲取所有列名,通過drop(1)刪掉“key”,(序號從1開始)
  2. 通過sorted 對列名進(jìn)行排序,默認(rèn)就是升序的

通過上面方法處理后數(shù)據(jù)類型是
RDD[(ImmutableBytesWritable, Seq[KeyValue])]
這顯然不是我們需要的,但是距離
RDD[(ImmutableBytesWritable, KeyValue)]
已然不遠(yuǎn)矣

3. 如何將value的Seq[KeyValue] 穿換成 KeyValue

 val result: RDD[(ImmutableBytesWritable, KeyValue)] = result1.flatMapValues(s => {
      s.iterator
    })
  1. 這點其實很簡單,但是腦子當(dāng)時短路還糾結(jié)很久,直接用flatMapValues這個方法即可,最后處理出來的就是我們的目標(biāo)RDD[(ImmutableBytesWritable, KeyValue)]

4. 目標(biāo)路徑已經(jīng)存在怎么辦

  /**
    * 刪除hdfs下的文件
    *
    * @param url 需要刪除的路徑
    */
  def delete_hdfspath(url: String) {
    val hdfs: FileSystem = FileSystem.get(new Configuration)
    val path: Path = new Path(url)
    if (hdfs.exists(path)) {
      val filePermission = new FsPermission(FsAction.ALL, FsAction.ALL, FsAction.READ)
      hdfs.delete(path, true)
    }
  }
  1. 存在就刪除唄,新建個方法delete_hdfspath將路徑刪除即可

5. 如何生成 HFile 和 load 數(shù)據(jù)到Hbase
執(zhí)行方法saveAsNewAPIHadoopFile()生成HFile
注意:此處要對key進(jìn)行排序(升序)

    //保存數(shù)據(jù)
    result
      .sortBy(x => x._1, true) //要保持 整體有序
      .saveAsNewAPIHadoopFile(save_path,
      classOf[ImmutableBytesWritable],
      classOf[KeyValue],
      classOf[HFileOutputFormat2],
      job.getConfiguration)

load 數(shù)據(jù)到Hbase

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles hdfs://ns1/user/hive/warehouse/iptv.db/zzzHFile iptv:spark_test

過程中出現(xiàn)的問題

  1. DataFrame 字段名稱沒有排序處理
18/10/15 14:19:32 WARN scheduler.TaskSetManager: Lost task 0.1 in stage 2.0 (TID 3, iptve2e03): java.io.IOException: Added a key not lexically larger than previous. 
Current cell = 200_\xE5\xB9\xBF\xE5\xB7\x9E_GD_GZ/cf_info:area_code/1539584366048/Put/vlen=5/seqid=0, 
    lastCell = 200_\xE5\xB9\xBF\xE5\xB7\x9E_GD_GZ/cf_info:dict_id/1539584366048/Put/vlen=2/seqid=0

上面的意思是當(dāng)前列名cf_info:area_code比前一個列名cf_info:dict_id小,這就是為什么需要對列名排序的原因,同時還要把key刪除掉,因為不刪除會出現(xiàn)cf_info:key這個列

完整代碼

依賴:sbt

libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0-cdh5.7.2"
libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.6.0-cdh5.7.2"
libraryDependencies += "org.apache.spark" % "spark-hive_2.10" % "1.6.0-cdh5.7.2"
libraryDependencies += "org.apache.hbase" % "hbase-client" % "1.2.0-cdh5.7.2"
libraryDependencies += "org.apache.hbase" % "hbase-server" % "1.2.0-cdh5.7.2"
libraryDependencies += "org.apache.hbase" % "hbase-common" % "1.2.0-cdh5.7.2"
libraryDependencies += "org.apache.hbase" % "hbase-protocol" % "1.2.0-cdh5.7.2"
libraryDependencies += "mysql" % "mysql-connector-java" % "5.1.38"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.6.0-cdh5.7.2"
libraryDependencies += "com.yammer.metrics" % "metrics-core" % "2.2.0"

關(guān)鍵代碼

import java.text.SimpleDateFormat
import java.util.{Calendar, Date}

import com.iptv.domain.DatePattern
import com.iptv.job.JobBase
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.fs.permission.{FsAction, FsPermission}
import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.functions.{concat, lit}
import org.apache.spark.sql.{DataFrame, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}
  /**
    * 將DataFrame 保存為 HFile
    *
    * @param resultDataFrame 需要保存為HFile的 DataFrame,DataFrame的第一個字段必須為"key"
    * @param clounmFamily 列族名稱(必須在Hbase中存在,否則在load數(shù)據(jù)的時候會失敗)
    * @param save_path HFile的保存路徑
    */
  def saveASHfFile(resultDataFrame: DataFrame, clounmFamily: String, save_path: String): Unit = {
    val conf: Configuration = HBaseConfiguration.create()
    lazy val job = Job.getInstance(conf)
    job.setMapOutputKeyClass(classOf[ImmutableBytesWritable]) //設(shè)置MapOutput Key Value 的數(shù)據(jù)類型
    job.setMapOutputValueClass(classOf[KeyValue])

    var columnsName: Array[String] = resultDataFrame.columns //獲取列名 第一個為key
    columnsName = columnsName.drop(1).sorted //把key去掉  因為要排序

    val result1: RDD[(ImmutableBytesWritable, Seq[KeyValue])] = resultDataFrame
      .map(row => {
        var kvlist: Seq[KeyValue] = List()
        var rowkey: Array[Byte] = null
        var cn: Array[Byte] = null
        var v: Array[Byte] = null
        var kv: KeyValue = null
        val cf: Array[Byte] = clounmFamily.getBytes //列族
        rowkey = Bytes.toBytes(row.getAs[String]("key")) //key
        for (i <- 1 to (columnsName.length - 1)) {
          cn = columnsName(i).getBytes() //列的名稱
          v = Bytes.toBytes(row.getAs[String](columnsName(i))) //列的值
          //將rdd轉(zhuǎn)換成HFile需要的格式,我們上面定義了Hfile的key是ImmutableBytesWritable,那么我們定義的RDD也是要以ImmutableBytesWritable的實例為key
          kv = new KeyValue(rowkey, cf, cn, v) //封裝一下 rowkey, cf, clounmVale, value
          //
          kvlist = kvlist :+ kv //將新的kv加在kvlist后面(不能反 需要整體有序)
        }
        (new ImmutableBytesWritable(rowkey), kvlist)
      })

    delete_hdfspath(save_path) //刪除save_path 原來的數(shù)據(jù)

    //RDD[(ImmutableBytesWritable, Seq[KeyValue])] 轉(zhuǎn)換成 RDD[(ImmutableBytesWritable, KeyValue)]
    val result: RDD[(ImmutableBytesWritable, KeyValue)] = result1.flatMapValues(s => {
      s.iterator
    })

    //保存數(shù)據(jù)
    result
      .sortBy(x => x._1, true) //要保持 整體有序
      .saveAsNewAPIHadoopFile(save_path,
      classOf[ImmutableBytesWritable],
      classOf[KeyValue],
      classOf[HFileOutputFormat2],
      job.getConfiguration)

  }

  /**
    * 刪除hdfs下的文件
    * @param url 需要刪除的路徑
    */
  def delete_hdfspath(url: String) {
    val hdfs: FileSystem = FileSystem.get(new Configuration)
    val path: Path = new Path(url)
    if (hdfs.exists(path)) {
      val filePermission = new FsPermission(FsAction.ALL, FsAction.ALL, FsAction.READ)
      hdfs.delete(path, true)
    }
  }

使用示例

package com.iptv.job.basedata

import com.iptv.job.JobBase
import org.apache.spark.sql.functions.{concat, lit}
import org.apache.spark.sql.{DataFrame, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author 利伊奧克兒-lillcol
  *         2018/10/14-11:08
  *
  */
object TestHFile extends JobBase {
  var hdfsPath: String = ""
  var proPath: String = ""
  var DATE: String = ""

  val sparkConf: SparkConf = new SparkConf().setAppName(getClass.getSimpleName)
  val sc: SparkContext = new SparkContext(sparkConf)
  val sqlContext: SQLContext = getSQLContext(sc)

  import sqlContext.implicits._

  def main(args: Array[String]): Unit = {
    hdfsPath = args(0)
    proPath = args(1)

    //HFile保存路徑
    val save_path: String = hdfsPath + "zzzHFile"
    //獲取測試DataFrame
    val dim_sys_city_dict: DataFrame = readMysqlTable(sqlContext, "DIM_SYS_CITY_DICT", proPath)

    val resultDataFrame: DataFrame = dim_sys_city_dict
      .select(concat($"city_id", lit("_"), $"city_name", lit("_"), $"city_code").as("key"), $"*")
    //注:resultDataFrame 里面的 key 要放在第一位,因為后面需要對字段名排序
    saveASHfFile(resultDataFrame, "cf_info", save_path)
  }
}

上述讀取mysql數(shù)據(jù)為DataFrame的放大可以參考
Spark:讀取mysql數(shù)據(jù)作為DataFrame

此為個人工作過程中的總結(jié),轉(zhuǎn)載請標(biāo)出處!!!!!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,967評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,273評論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,870評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,742評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,527評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,010評論 1 322
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,108評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,250評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,769評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,656評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,853評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,371評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,103評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,472評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,717評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,487評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,815評論 2 372

推薦閱讀更多精彩內(nèi)容