為了解決多數據源導致的口徑不一致、數據無關聯、數據質量差、缺少歷史數據、開發效率低等問題,企業需要構建企業級數據倉庫,對數據進行規整和高效利用。除此以外,由于直連業務系統支撐多方報表導致讀寫交叉性能降低,影響正常業務系統使用的問題也可解決。
構建企業級數據倉庫的步驟分為調研、數倉設計、數倉實施和測試上線四個主要環節。
(資料圖片僅供參考)
調研前期,需要明確本次項目在此階段成功的要素,其次是劃分責任矩陣,收集相關資料并制定合適的調研策略。與用戶需求相關的信息應該足夠的詳細。最終要交付給最終用戶項目計劃及需求說明,需要的情況下需要制定災備計劃,以便數據倉庫可以從事故中恢復。
調研責任矩陣
調研執行分為四步驟:
第一步對本次項目的目標,整體平臺的范圍和當前IT的技術架構進行調研與整理;第二步針對本期項目涉及業務部門進行單獨訪談,明確指標,確認口徑,梳理前端樣式與功能并確定相應的數據標準;第三步可根據上一輪調研結果所設計的藍圖進行確認和修改并在數據側對底層數據進行探源;最后將調研結果與方案藍圖進行最終的多方確認并審核簽字。這一階段的交付物為系統藍圖框架與當前數據基礎和質量情況表等,具體的執行過程見下圖:
指標確認框架
數倉構建的核心工作是分層及建模,分層架構設計是為應用數據資源采集、存儲、處理和交換提供建設性依據,而數據模型將決定數據倉庫系統的增長性和性能,數倉一般分為 ODS(貼源層)層、DW 層(數據倉儲層)、DM 層(數據集市層)三層架構,依據企業實際情況會有所調整,而數倉模型大多采用維度建模和范式建模。
數據分層:
每一個數據層都有它的作用域,在使用表的時候能更方便地定位和理解,因此需要針對數據進行分層建設,且數據分層也利于數據血緣追蹤、屏蔽原始數據的異常,通過開發一些中間層,還可以起到減少重復開發的作用。
數倉通用技術框架
數倉建模的流程:
數倉模型的設計,按照概念模型(主題域模型)——邏輯模型——物理模型的流程進行,邏輯模型和物理模型通常采用維度建模的辦法,以星型和雪花型模型來組織數據,維度建模的兩個基本元素是事實表和維度表。而維度建模也分為確定業務主題、定義粒度、確定維度和確認事實表四個步驟。該階段的交付物為針對數據源的概念模型、邏輯模型和物理模型。
數倉建模一般流程
DWD層維度建模步驟
ETL過程常常需要最長的項目時長,可能會占用數倉開發的50%及以上,因為獲取源數據、理解業務規則、邏輯和物理數據模型需要花費大量時間。ETL 通過從源系統數據庫實時同步數據至數據倉庫貼源層,基礎層、通用層、應用層基于貼源層的增量數據以實時指標加工的規則進行定時(T+1 天)加工處理。
ETL過程
測試上線
測試上線的主要目的是為了測試當前數倉開發完畢后數據是否準確,數據相應的速度是否及時,包括 ETL 任務的各環節是否出現異常等,測試完畢通過業務確認后即可上線。
數據規范
數倉建設的規范是為了后續開發人員可以遵從規范,培養良好的習慣,也可以提升數倉開發的可維護性,便于用戶的溝通及交流。數據規范的內容包括數倉設計規范、命名規范、ETL 規范、報表規范等,數據規范建設為后續的數據治理及數據資產的管理建立了良好的基礎。
數倉規范文檔
標簽: