經過一段時間的代碼閱讀,我對歷史項目的流程和數據庫結構已經有了初步的認知了,確實有了一些可以落地的數據倉庫的做法。
首先還是要把原始表全部倒入進來,然后在數據倉庫上做數據粗加工。
首先是導出原始表,這里有2個問題,一個是導出多少字段,不少表的字段我也不清楚,但是為了以后的分析,還是導出所有字段,第二個問題是增量還是全量,首先增量,但是要確保每個記錄嗯更新時間是有的,這個還需要進一步完善。
然后是歷史數據的處理,要多多少?我這里只做到把標志位從字符解析出來單獨保存就行。
由于歷史數據的處理上,很多標志位沒有采用數據庫字段的方式,這就導致了無法做到標準的查詢一下,所以需要在建立新的標志位,將文本中標志位的內容存放在一段中,例如在合同的開頭字母是表示合同類型的,就需要在etl過程中把合同類型單獨存放,還好之前做了一些數據清洗,這部分問題不大。