ElasticSearch-River-Kafka實現(xiàn)動態(tài)Index、Type數(shù)據(jù)同步

背景

我們在做大數(shù)據(jù)的項目時經(jīng)常遇到數(shù)據(jù)同步的問題,kafka到es是一個比較常見的數(shù)據(jù)同步管道。有這樣的一個需求,kafka入es的過程中,我們需要達到如下效果:kafka中同一個topic數(shù)據(jù)流可以動態(tài)的插入到es不同的type里面,當然,它們是同一個index。什么叫動態(tài)插入?舉個例子:譬如我們按照時間來切分type,每個小時為單位,那么,在三點到四點之間,數(shù)據(jù)就會同步到type為2018011003里面,在四點到五點之間,數(shù)據(jù)就會同步到type為2018011004里面。將這個需求往深處想的話,同樣,是不是可以實現(xiàn)動態(tài)index插入呢?答案是可以的。

實現(xiàn)原理

river這個es插件大家不知道聽過沒,我們可以利用river實現(xiàn)該功能。網(wǎng)上有很多現(xiàn)成的開源插件elasticsearch-river-kafka,它們都有個共同點就是只能靜態(tài)的同步數(shù)據(jù)。這里的靜態(tài)指的是不能動態(tài)生成index和type。所以,我們基于開源庫elasticsearch-river-kafka,可以自己動手修改代碼,來實現(xiàn)我們想要的功能。而且,這個插件本身就是支持自定義開發(fā)的。

步驟

kafka:v0.10
elasticsearch:v1.7.0

一:代碼庫地址

github:elasticsearch-river-kafka
我是fork別人的開源項目,在此基礎(chǔ)上自己修改的代碼,原項目地址

二:安裝該插件

  • 方式一
    去你安裝elasticsearch的機器上,找到es下的bin目錄執(zhí)行安裝插件命令
cd $ELASTICSEARCH_HOME
./bin/plugin --install <plugin-name> --url https://github.com/zhuyinglinfeng/elasticsearch-river-kafka/archive/master.zip
  • 方式二
    如果你本地已經(jīng)clone了該項目,直接本地編譯打包,然后把zip包發(fā)送到安裝elasticsearch的機器上面,再執(zhí)行安裝插件命令
cd $ELASTICSEARCH_HOME
./bin/plugin --install <plugin-name> --url file:<zip_path>

三:配置river(這個是重點哦)

一條river代表著一條同步規(guī)則,創(chuàng)建river很簡單,執(zhí)行如下的命令即可

curl -XPUT 'localhost:9200/_river/<river-name>/_meta' -d '
{
     "type" : "kafka",
     "kafka" : {
        "zookeeper.connect" : <zookeeper.connect>, 
        "zookeeper.connection.timeout.ms" : <zookeeper.connection.timeout.ms>,
        "topic" : <topic.name>,
        "message.type" : <message.type>
    },
    "index" : {
        "index" : <index.name>,
        "frequency.index" : <frequency.index>,
        "type" : <mapping.type.name>,
        "frequency.type" : <frequency.type>,
        "bulk.size" : <bulk.size>,
        "concurrent.requests" : <concurrent.requests>,
        "action.type" : <action.type>,
        "flush.interval" : <flush.interval>
    },
    "statsd" : {
        "host" : <statsd.host>,
        "prefix" : <statsd.prefix>,
        "port" : <statsd.port>,
        "log.interval" : <statsd.log.interval>
    }
 }'
參數(shù)名字 是否必填 默認值 描述
river-name 名字
zookeeper.connect localhost zoo的地址
zookeeper.connection.timeout.ms 10000 zoo連接超時時間
topic elasticsearch-river-kafka topic名字
message.type json kafka消息類型,json/string
index kafka-index ES索引
frequency.index 動態(tài)索引切分頻率,1mon/1day/1hour/10min
type status ES類型
frequency.type 動態(tài)類型切分頻率,1mon/1day/1hour/10min
bulk.size 100 單次處理的消息數(shù)量
concurrent.requests 1 并發(fā)請求數(shù)
action.type index 同步行為,index(插入)/delete(刪除)/raw.execute(執(zhí)行語句)
host localhost statsd服務(wù)地址
port 8125 statsd端口
prefix kafka-river statsd鍵值前綴
log.interval 10 statsd上報metrics時間間隔

Note:
如果填寫了frequency.index參數(shù),表示index根據(jù)時間動態(tài)創(chuàng)建,index參數(shù)可以不用填寫,即使填寫也不會生效
如果填寫了frequency.type參數(shù),表示type根據(jù)時間動態(tài)創(chuàng)建,type參數(shù)可以不用填寫,即使填寫也不會生效

Example:
將kafka中topic名字為topic-test流中的數(shù)據(jù)同步到index為index-test里面,并且每隔10min動態(tài)切換type類型

curl -XPUT 'localhost:9200/_river/river-test/_meta' -d '
{
    "type": "kafka",
    "kafka": {
        "zookeeper.connect": "localhost",
        "zookeeper.connection.timeout.ms": 10000,
        "topic": "topic-test",
        "message.type": "json"
    },
    "index": {
        "index": "index-test",
        "frequency.type”: "10min",
        "bulk.size": 100,
        "concurrent.requests": 1,
        "action.type": "index",
        "flush.interval": "5s"
    }
}'

四:重啟elasticsearch

查詢進程號:ps -ef | grep elastic
關(guān)閉進程:kill -9 pid
啟動:./bin/elasticsearch -d

五:驗證

到此為止,理論上已經(jīng)全部完成,現(xiàn)在可以往kafka中寫數(shù)據(jù)了,不出意外,如果你的<flush.interval>參數(shù)設(shè)置很短的話,幾秒后es中就可以查看數(shù)據(jù)了

升級維護

  • 插件刪除
./bin/plugin --remove <plugin-name>
  • 刪除river
    和刪除elasticsearch數(shù)據(jù)方式一樣,利用es提供的接口命令刪除即可
curl -XDELETE 'localhost:9200/_river/river-test/'
  • 代碼升級
    如果你想要手動改寫代碼,也很簡單,fork一下代碼庫,自己本地升級代碼,然后按照上面的步驟就可以

自定義elasticsearch-river-kafka開發(fā)

......待完善

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,781評論 18 139
  • 概述 監(jiān)控預警平臺, eagle + eye (鷹眼)的合體詞, 寓意可以快速發(fā)現(xiàn)問題, 并及時作出響應,Eagl...
    Kungfu貓熊閱讀 7,419評論 0 52
  • 創(chuàng)城工作結(jié)束了額 又迎來了十九大工作 加不完的班 整不完的材料 心情超級郁悶 見人就想罵 一肚子火 即便這樣工作也...
    一朵太陽花shl閱讀 147評論 0 0
  • “寶貝蛋子,下午咱練歌吧,好久沒唱了,都沒氣唱了都”。“好,我陪你練”!“你先唱我pk你可以嗎”。“好啊”!“那我...
    寶寶的寶貝蛋子閱讀 312評論 2 1
  • 2017年4月19日23時55分,當我第一次從劉潤老師的《五分鐘商學院》中看到這個概念,就被其深深震撼,耐心讀了三...
    飄舞的星空閱讀 1,533評論 0 2