withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
背景 大數據平臺早期是野蠻生長的,作業直接在終端提交運行,處于一種完全無管理的自由狀態。在17年上線了內部的大數據平臺后,用戶開始逐漸在平臺上進...
背景 Delta Lake 進行數據刪除或更新操作時實際上只是對被刪除數據文件做了一個 remove 標記,在進行 vacuum 前并不會進行物...
Delta Lake當前版本(0.5)只支持API操作的,但是實現 Insert SQL 語法也不難,可以參考 Delta Lake 平臺化實踐...
很久沒寫過部署文檔了,不過 Apache Ranger KMS 的手動部署較為繁瑣,網上的相關資料基本都是散裝的,因此寫了一篇進行總結。 背景 ...
Delta 0.5 已于上周發布,增加了不少新特性,這篇文章主要講解其 Presto Integration 和 Manifests 機制。該功...
Delta Lake 是什么?簡單的說就是為大數據場景添加了事務功能,并且支持了 update/delete/merge into 等功能, D...
對 spark 任務數據落地(HDFS) 碎片文件過多的問題的優化實踐及思考。 背景 此文是關于公司在 Delta Lake 上線之前對Spar...
數據接入 背景 使用界面化和 sql 的方式將數據導入到 druid,提供數據給后續告警,監控,查詢等服務使用。 方案設計 數據源1:內部消息服...