????元數據(Meta Data),主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及 ETL 的任務運行狀態。一般會通過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操作和管理能達成協同和一致。元數據是數據倉庫管理系統的重要組成部分,元數據管理是企業級數據倉庫中的關鍵組件,貫穿了數據倉庫的整個生命周期,使用元數據驅動數據倉庫的開發,使數據倉庫自動化,可視化。
????構建數據倉庫的主要步驟之一是 ETL。這時元數據將發揮重要的作用,它定義了源數據系統到數據倉庫的映射、數據轉換的規則、數據倉庫的邏輯結構、數據更新的規則、數據導入歷史記錄以及裝載周期等相關內容。數據抽取和轉換的專家以及數據倉庫管理員正是通過元數據高效地構建數據倉庫。
????用戶在使用數據倉庫時,通過元數據訪問數據,明確數據項的含義以及定制報表。數據倉庫的規模及其復雜性離不開正確的元數據管理,包括增加或移除外部數據源,改變數據清洗方法,控制出錯的查詢以及安排備份等。
一、元數據類型
?元數據可分為技術元數據、業務元數據和管理過程元數據。
1、 技術元數據為開發和管理數據倉庫的 IT 人員使用,它描述了與數據倉庫開發、管理和維護相關的數據,包括數據源信息、數據轉換描述、數據倉庫模型、數據清洗與更新規則、數據映射和訪問權限等。
2、 業務元數據為管理層和業務分析人員服務,從業務角度描述數據,包括商務術語、數據倉庫中有什么數據、數據的位置和數據的可用性等,幫助業務人員更好地理解數據倉庫中哪些數據是可用的以及如何使用。
3、 管理過程元數據指描述管理領域相關的概念、關系和規則的數據,主要包括管理流程、人員組織、角色職責等信息。
二、元數據功能
1、血緣分析:向上追溯元數據對象的數據來源。血緣分析可以幫助您輕松回答:'我正在查看的報告數據來源是什么?'以及'對當前分析的數據應用了哪些轉換處理?'等問題。這樣的機制及對這些問題的回答確保了對所分析的數據更高的信任水平,并有助于實現許多行業(包括醫療、金融、銀行和制造業等)對所呈現數據的特殊監管及合規性要求。
2、影響分析:向下追溯元數據對象對下游的影響。影響分析可以讓您輕松應對變更可能產生的影響,自動識別與其相關的依賴項和潛在的影響還可以跟蹤所有對象及其依賴關系,最后我們還提供數據全生命周期的可視化顯示。例如,如果您的某一信息系統中準備將“銷售額”從包含稅費更改為不包括稅費,則SE-DWA將自動顯示所有使用了“銷售金額”字段,以便您可以確定有哪些工作需要完成,并且建議您在更改前完成該工作。
3、同步檢查:檢查源表到目標表的數據結構是否發生變更。
4、指標一致性分析:定期分析指標定義是否和實際情況一致。
5、實體關聯查詢:事實表與維度表的代理鍵自動關聯
三、元數據應用
1、ETL自動化管理:使用元數據信息自動生成物理模型,ETL程序腳本,任務依賴關系和調度程序。
2、數據質量管理:使用數據質量規則元數據進行數據質量測量。數據質量根據設定的規則幫助您過濾出有問題的數據,并智能分析數據質量缺陷。
3、數據安全管理:使用元數據信息進行報表權限控制。可以方便查看用戶和訪問權限,并啟用對象級和行級安全管理。對象級安全性確保通過身份驗證的用戶只能訪問他們被授權查看的數據、表或列,其它數據則不可見。基于行的安全性會更進一步,可以限制特定的組成員只可以訪問表中特定的數據。
4、數據標準管理:使用元數據信息生成標準的維度模型。
5、數據接口管理:使用元數據信息進行接口統一管理。多種數據源接入,并提供多種插件對接最流行的源系統。應該可以簡單方便獲取數據。
6、項目文檔管理:使用元數據可以自動、方便的生成的健壯全面的項目文檔,其以幫助您應對各種對于數據合規性要求。讀取元數據模型,并生成pdf格式的描述文件。生成文檔您查看每個對象的名稱、設置、描述和代碼。
7、數據語義管理:業務用戶在自助服務分析中面臨的挑戰他們不了解數據倉庫從而無法正確解釋數據,使用元數據可以語義層建模,使用易于業務用戶理解的描述來轉換數據。
四、總結
?????由上可見,元數據不僅定義了數據倉庫中數據的模式、來源、抽取和轉換規則等,而且是整個數據倉庫系統運行的基礎,元數據把數據倉庫系統中各個松散的組件聯系起來,組成了一個整體數據倉庫解決方案。