
IP屬地:陜西
1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2...
需求:快速解析一個文件夾下的所有xml(10年的數據,大概一千萬個xml)遇到的坑:xml里面有dtd,必須這個文件存在,不然會報錯處理思路:重...
最近解析了一個超大的xml,之間遇到很多坑,有寫Java程序、spark程序,最后用Python處理的:Java、spark、python處理X...
上一篇咱們講了通過hive映射為hbase表導數據,這兒我么再講一下通過hive,使用hbase原生jar生成hfile再bulkload到hb...
需求:解析XML文件,寫入到hbase(xml文件格式為GBK,spark讀進來會亂碼)痛點:普通的寫入太慢太耗費時間 1.spark解決讀取G...
/********************************** 數據去重 ***************************...
記錄一下曾經走過的一些坑,一定要注意operator狀態之前盡量不要用keyby Flink提供了Exactly once特性,是依賴于帶有ba...
話不多說直接上代碼 /*********************************** 寫數據到ElasticSearch *****...