目前,數據倉庫一詞尚沒(méi)有一個(gè)統一的定義,著(zhù)名的數據倉庫專(zhuān)家W.H.Inmon在其著(zhù)作《Building the Data Warehouse》一書(shū)中給予如下描述:數據倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個(gè)層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業(yè)現有的操作型數據庫;其次,數據倉庫是對多個(gè)異構的數據源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
根據數據倉庫概念的含義,數據倉庫擁有以下四個(gè)特點(diǎn):
1、面向主題。操作型數據庫的數據組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶(hù)使用數據倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統相關(guān)。
2、集成的。面向事務(wù)處理的操作型數據庫通常與某些特定的應用相關(guān),數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經(jīng)過(guò)系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
3、相對穩定的。操作型數據庫中的數據通常實(shí)時(shí)更新,數據根據需要及時(shí)發(fā)生變化。數據倉庫的數據主要供企業(yè)決策分析之用,所涉及的數據操作主要是數據查詢(xún),一旦某個(gè)數據進(jìn)入數據倉庫以后,一般情況下將被長(cháng)期保留,也就是數據倉庫中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化。操作型數據庫主要關(guān)心當前某一個(gè)時(shí)間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應用數據倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對企業(yè)的發(fā)展歷程和未來(lái)趨勢做出定量分析和預測。
企業(yè)數據倉庫的建設,是以現有企業(yè)業(yè)務(wù)系統和大量業(yè)務(wù)數據的積累為基礎。數據倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應的管理決策人員,是數據倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數據倉庫建設是一個(gè)工程,是一個(gè)過(guò)程。
整個(gè)數據倉庫系統是一個(gè)包含四個(gè)層次的體系結構,具體由下圖表示。

·數據源:是數據倉庫系統的基礎,是整個(gè)系統的數據源泉。通常包括企業(yè)內部信息和外部信息。內部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數據和各類(lèi)文檔數據。外部信息包括各類(lèi)法律法規、市場(chǎng)信息和競爭對手的信息等等;
·數據的存儲與管理:是整個(gè)數據倉庫系統的核心。數據倉庫的真正關(guān)鍵是數據的存儲和管理。數據倉庫的組織管理方式?jīng)Q定了它有別于傳統數據庫,同時(shí)也決定了其對外部數據的表現形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數據倉庫的核心,則需要從數據倉庫的技術(shù)特點(diǎn)著(zhù)手分析。針對現有各業(yè)務(wù)系統的數據,進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數據倉庫按照數據的覆蓋范圍可以分為企業(yè)級數據倉庫和部門(mén)級數據倉庫(通常稱(chēng)為數據集市)。
·OLAP服務(wù)器:對分析需要的數據進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現趨勢。其具體實(shí)現可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放于多維數據庫中;HOLAP基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。
·前端工具:主要包括各種報表工具、查詢(xún)工具、數據分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開(kāi)發(fā)工具。其中數據分析工具主要針對OLAP服務(wù)器,報表工具、數據挖掘工具主要針對數據倉庫。
相關(guān)技術(shù)術(shù)語(yǔ)解釋?zhuān)?/p>
BI:Business Intelligence 商業(yè)智能,是近幾年才慢慢得到用戶(hù)應用的技術(shù),通過(guò)對數據的收集、管理、分析以及轉化,使數據成為可用的信息,從而獲得必要的洞察力和理解力,更好地輔助決策和指導行動(dòng)。比較流行的BI平臺除了IBM的DB2 II(Information Integrator,信息集成器)、微軟的BI平臺,還有BO(Business Object)、Brio等。
MINING:數據挖掘基于數據倉庫,從大量的、不完全的、模糊的或者隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的過(guò)程。
數據挖掘的目的是為了提高市場(chǎng)決策能力;檢測異常模式;在過(guò)去的經(jīng)驗基礎上預言未來(lái)趨勢等。目前提供數據挖掘產(chǎn)品的廠(chǎng)商非常多,如著(zhù)名的產(chǎn)品有SAS Enterprise Miner、NCR Teradata Warehouse Miner、SPSS Clementine 7.0、IBM DB2 Intelligent Mine、SQL Server 2000數據挖掘組件、Oracle9i Data Mining、CA CleverPath Predictive Analysis Server、德門(mén)軟件DMiner等。
swings 轉載自北大高科網(wǎng)站,http://www.pku-ht.com/
聯(lián)系客服