數據集成是當下比較熱門(mén)的話(huà)題,相關(guān)的產(chǎn)品和平臺也越來(lái)越多。很多CIO都在各種數據集成平臺和產(chǎn)品之間猶豫不決。因此對數據集成平臺的框架體系有全面的理解,對各個(gè)廠(chǎng)家產(chǎn)品所提供的功能有深入的認識才能為數據平臺選型的決策提供可靠的保證。
我有幸參與了國內一個(gè)知名企業(yè)的集成平臺的設計工作,并主導了數據集成平臺的需求分析和產(chǎn)品選型工作。這次工作中,研究了很多新的技術(shù)方向和產(chǎn)品,下面我主要講一下數據集成領(lǐng)域的一種新興的產(chǎn)品平臺主數據管理平臺MDM(Master Data Management)。
主數據的概念
首先介紹一下什么是主數據。這里借用其他網(wǎng)站的一個(gè)數據分類(lèi)模型,我們可以看到有元數據(metadata),引用數據(Reference Data),主數據(Master Data),企業(yè)結構數據(Enterprise structure Data),交易活動(dòng)數據(Transaction Activity Data),交易審計數據(Transaction Audit Data)這六大類(lèi)數據。
簡(jiǎn)要解釋一下這六大類(lèi)的數據,關(guān)于這些數據分類(lèi)的定義可以在網(wǎng)上很容易的找到。
元數據:數據的數據,平時(shí)我們設計表時(shí),大部分屬性字段就是元數據。比如,性別,國籍,出生省份等。這個(gè)是最接近自然意義的的數據。
引用數據:元數據的可能取值范圍,我們設計表時(shí)所說(shuō)的數據字典往往就是引用數據。比如,性別只能是男和女,男和女就是引用數據。國家的引用數據就是世界上這100多個(gè)國家和地區;
主數據:在我們數據庫設計中最重要的一些實(shí)體,是由元數據和引用數據實(shí)例的集合。DMReview 專(zhuān)欄作家 Jane Griffin 將主數據定義為“...用于為核心業(yè)務(wù)實(shí)體創(chuàng )建和維護全企業(yè)‘記錄系統’,以記錄業(yè)務(wù)交易并評定這些實(shí)體的業(yè)績(jì)所需的信息。”平時(shí)我們常碰到的客戶(hù)信息,產(chǎn)品信息都屬于主數據。對于主數據的介紹,我們會(huì )在后面詳細展開(kāi)說(shuō)明。
企業(yè)結構化數據:企業(yè)業(yè)務(wù)中所需的數據實(shí)體 ,可能是多個(gè)主數據的集合。不同行業(yè)的結構化數據會(huì )有很大不同。
交易活動(dòng)數據:主數據之間活動(dòng)產(chǎn)生的數據。比如客戶(hù)購買(mǎi)產(chǎn)品的交易記錄就是交易活動(dòng)數據,工廠(chǎng)生產(chǎn)產(chǎn)品,生產(chǎn)記錄也是交易活動(dòng)數據。
交易審計數據:我們對數據的所有活動(dòng)都通過(guò)交易審計數據進(jìn)行記錄。比如我們對客戶(hù)信息修改的操作,對交易的增加和刪除操作,這些活動(dòng)在很多關(guān)鍵系統(比如銀行)都需要記錄,以合符相應法規的要求(如 Basel II、薩班斯—奧克斯利法案)。
下圖中數據模型中的藍色越深代表語(yǔ)義相關(guān)性越強和數據質(zhì)量越重要,而黃色越深代表數據的數據數量越多、更新的頻率越快、實(shí)時(shí)抓取的數據越快、數據的生命越短。下圖可以看到,元數據的數據語(yǔ)義性最強,幾乎不更新,數據量最少,生命周期最長(cháng)。
主數據是企業(yè)應用系統中最基本的業(yè)務(wù)單元,下面是一段英文的原文:Master Data are the fundamental business data in the company, typically long-lived and used across multiple applications。
Core Master Data are operational entities, supporting all fundamental business activity transactions being executed on this level. The Core Master data are common and shareable within the organization。
我覺(jué)得很好理解,比如一個(gè)產(chǎn)品系統,它處理的基本數據就是生產(chǎn)數據。HR系統處理的基本數據是雇員;CRM系統是客戶(hù)
一般來(lái)說(shuō)核心主數據包含:Customers, Contracts, Suppliers, Distributors/Partners,Employees等等。
另外,各個(gè)行業(yè)對于主數據的管理的需求和期望會(huì )有很大不同,因此行業(yè)經(jīng)驗對于主數據管理也是很重要的。
主數據管理的概念
從上面的介紹可以了解,主數據并不是什么新的概念,但為什么之前沒(méi)有主數據管理的產(chǎn)品呢?其實(shí),解釋這個(gè)問(wèn)題和解釋數據集成出現的原因很類(lèi)似。因為之前主數據依附于各個(gè)單獨的業(yè)務(wù)系統,比如HR, ERP,SCM,企業(yè)的網(wǎng)站,商業(yè)合作伙伴的系統都可能對某一個(gè)主數據有存儲,比如某個(gè)產(chǎn)品。問(wèn)題隨之來(lái)了,如系統間數據編碼不一致;數據的冗余;某些系統數據的不完整。舉個(gè)實(shí)際的例子,如果我們新建一個(gè)BI的系統,那么有可能我需要從生產(chǎn)系統,財務(wù)系統,物流系統,企業(yè)合作伙伴系統多個(gè)系統拿到一個(gè)完整的關(guān)于主數據的信息。顯然,需要一種解決方案,能夠提供一個(gè)單一的主數據訪(fǎng)問(wèn)接口,以提高主數據訪(fǎng)問(wèn)的效率;為企業(yè)的市場(chǎng)、銷(xiāo)售、客戶(hù)關(guān)系管理等活動(dòng)提供可靠的數據,提高企業(yè)的敏捷性。
主數據管理:主數據管理是數據管理的一種高級形式,它必須構建于ETL或者EII(Enterprise Information Integration)等技術(shù)之上,因此很多主數據管理平臺本身就包含了數據抽取、數據加載、數據轉換、數據質(zhì)量管理、數據復制和數據同步等功能。也有某些廠(chǎng)商把MDM作為數據集成產(chǎn)品的一個(gè)模塊交付給客戶(hù)。
無(wú)主數據管理時(shí)對主數據訪(fǎng)問(wèn)
主數據分散在各個(gè)系統造成的問(wèn)題:
數據在各個(gè)系統冗余,造成數據訪(fǎng)問(wèn)繁瑣;編碼不統一; 數據不同步,缺乏一致性;
給企業(yè)業(yè)務(wù)帶來(lái)了如下影響:
延誤產(chǎn)品面市時(shí)間;產(chǎn)品供不應求;不準確的訂單交付 ;銷(xiāo)售效能低下;客戶(hù)滿(mǎn)意度降低;生產(chǎn)力降低。
有主數據管理平臺時(shí)對主數據的訪(fǎng)問(wèn)的圖示
主數據管理平臺帶來(lái)的好處:
有統一的主數據訪(fǎng)問(wèn)平臺;企業(yè)能夠提供一致的完整的共享信息平臺;集中的內容豐富和干凈的數據中心;為使用數據的應用,企業(yè)業(yè)務(wù)流程和決策系統提供了一個(gè)真實(shí)的數據訪(fǎng)問(wèn)通道。
我個(gè)人感覺(jué)MDM平臺建立之后,最受益的還是BI相關(guān)的應用。
主數據管理平臺的功能模塊
Master Repositories(主數據資源庫)::X-Ref DB, Masters DB, Master Data Applications;
Data Quality(數據質(zhì)量保證):源數據的質(zhì)量檢查,從源數據系統傳輸到數據緩儲區的所有數據都應首先接受質(zhì)量檢查后才能導入,源數據的質(zhì)量檢查應包括接口數據文件格式是否標準化的確認、文件大小確認,記錄數、文件生成時(shí)間的確認等內容; ETL系統質(zhì)量檢查,包括對主外鍵關(guān)系、編碼規范的檢查。每次數據的抽取、轉換和加載都必須有完整的日志記錄,并在加載完成后確認記錄數前后一致。
Data enrichment(數據深度分析,關(guān)聯(lián)性分析):企業(yè)內部分析;
System Integration(集成組件):主數據管理器;服務(wù)總線(xiàn)(提供data service);異常處理;映射(mapping)/轉換(Transforming)/加載(loading);數據交換(Data exchange);同步流程(Workflow);Business System;元數據/主數據訪(fǎng)問(wèn)控制;數據錄入控制;數據采集;管理/安全
主數據管理平臺項目的實(shí)施
和很多集成項目一樣,項目的實(shí)施最重要的是制定好業(yè)務(wù)的策略和規劃,業(yè)務(wù)人員,業(yè)務(wù)需求和行業(yè)專(zhuān)家對數據的理解和分析是關(guān)鍵,技術(shù)平臺只是我們思想實(shí)現的重要工具,不會(huì )起決定性的作用。
提供主數據管理平臺的產(chǎn)商
傳統ERP廠(chǎng)商:SAP和ORACLE都基于自己的產(chǎn)品經(jīng)驗,在它們的ERP套裝軟件產(chǎn)品中加入了主數據管理產(chǎn)品?;谒麄冃袠I(yè)的經(jīng)驗,他們的產(chǎn)品有比較完整的主數據管理比較好的數據模型和主數據管理的經(jīng)驗。Oracle基于自身在CRM和制造行業(yè)的深厚經(jīng)驗,提供非常全面的客戶(hù)主數據產(chǎn)品UCM8.0和制造業(yè)主數據產(chǎn)品PIM12.0,
中間件廠(chǎng)商:TIBCO有專(zhuān)門(mén)的MDM產(chǎn)品,我看到的是他們一年前的產(chǎn)品介紹,感覺(jué)功能還比較欠缺,缺少很多重要的功能,當然我還沒(méi)有時(shí)間研究他們最新的產(chǎn)品。
ORACLE在MDM產(chǎn)品上有著(zhù)比較明確的戰略和路線(xiàn)圖。在收購BEA后,相信在MDM產(chǎn)品上,ORACLE會(huì )結合原本就功能強大的 ODI 工具,加上BEA在數據集成領(lǐng)域產(chǎn)品的特點(diǎn),基于自己原有的行業(yè)經(jīng)驗,提供更全面的產(chǎn)品,鞏固自己在中間件產(chǎn)品的領(lǐng)先地位。
IBM收購了一個(gè)MDM產(chǎn)品,我一向不太愿意研究IBM的產(chǎn)品,所以也沒(méi)有發(fā)言權。我Software AG(WebMethod)做的也可以,有專(zhuān)門(mén)的產(chǎn)品,功能也相對完善。但在實(shí)施團隊的力量上,要差一些。
對于主數據管理平臺,我會(huì )在以后的博客里面深入一些細節問(wèn)題進(jìn)行探討。歡迎有興趣的朋友提寶貴意見(jiàn)。