參考:阿里云開(kāi)源離線同步工具DataX3.0介紹
https://github.com/alibaba/DataX/wiki/DataX-Introduction
需求:數(shù)據(jù)庫(kù)中從源數(shù)據(jù)機(jī)器A
Hive到另外一個(gè)目標(biāo)機(jī)器B
中的 Hive。
- 步驟一、在B機(jī)器建表。
- 配置json文件,注意格式之間的對(duì)應(yīng)關(guān)系。先要分析數(shù)據(jù)是從什么工具到什么工具,即分清每一次的reader和writer。hive和DataX參見(jiàn)
image.png
。
在reader只能寫(xiě)dataX的數(shù)據(jù)形式(左側(cè)),在writer只能寫(xiě)hive表數(shù)據(jù)類型。配置完成。
- 使用datax.py文件運(yùn)行json文件即可。