What are the four basic Data Flow steps of an ETL process? 在ETL過(guò)程中四個(gè)基本的過(guò)程分別是什么? 答: Kimball數據倉庫構建方法中,ETL的過(guò)程和傳統的實(shí)現方法有一些不同,主要分為四個(gè)階段,分別是抽?。?/span>extract)、清洗(clean)、一致性處理(comform)和交付(delivery),簡(jiǎn)稱(chēng)為ECCD。 1.抽取階段的主要任務(wù)是: 讀取源系統的數據模型。 連接并訪(fǎng)問(wèn)源系統的數據。 變化數據捕獲。 抽取數據到數據準備區。 2.清洗階段的主要任務(wù)是: 清洗并增補列的屬性。 清洗并增補數據結構。 清洗并增補數據規則。 增補復雜的業(yè)務(wù)規則。 建立元數據庫描述數據質(zhì)量。 將清洗后的數據保存到數據準備區。 3.一致性處理階段的主要任務(wù)是: 一致性處理業(yè)務(wù)標簽,即維度表中的描述屬性。 一致性處理業(yè)務(wù)度量及性能指標,通常是事實(shí)表中的事實(shí)。 去除重復數據。 國際化處理。 將一致性處理后的數據保存到數據準備區。 4.交付階段的主要任務(wù)是: 加載星型的和經(jīng)過(guò)雪花處理的維度表數據。 產(chǎn)生日期維度。 加載退化維度。 加載子維度。 加載1、2、3型的緩慢變化維度。 處理遲到的維度和遲到的事實(shí)。 加載多值維度。 加載有復雜層級結構的維度。 加載文本事實(shí)到維度表。 處理事實(shí)表的代理鍵。 加載三個(gè)基本類(lèi)型的事實(shí)表數據。 加載和更新聚集。 將處理好的數據加載到數據倉庫。 從這個(gè)任務(wù)列表中可以看出,ETL的過(guò)程和數據倉庫建模的過(guò)程結合的非常緊密。換句話(huà)說(shuō),ETL系統的設計應該和目標表的設計同時(shí)開(kāi)始。通常來(lái)說(shuō),數據倉庫架構師和ETL系統設計師是同一個(gè)人。 |