首先,讓我們來(lái)回顧一下這種數據集成的生命周期所包含的7個(gè)步驟。通過(guò)這7個(gè)步驟使得數據變得可視化,使得它的價(jià)值變得可以評定,以及它的形式和使用變得更易于理解:
訪(fǎng)問(wèn):盡管它的形式可能極不容易理解和存檔,并且它的數據源也在一定程度上不透明,但是數據必須習慣于擁有某種生命或者意義。數據可以來(lái)源于許多地方,其中包括以前的應用程序和系統,數據庫,現在流行的應用程序,各種各樣的XML消息,以及成千上百種不同形式的文檔(例如電子數據表,項目計劃,文本文檔等等)。
發(fā)現:其中包括把所有數據源變得公開(kāi),尤其是記錄非常不好理解或者描述的數據源的使用和結構。這也是數據語(yǔ)義學(xué)(從它的結構和使用中顯露出來(lái)的形式和規則)和質(zhì)量體系為了以后進(jìn)一步的研究需要特別注意和標志之處。
清洗:清洗數據以保證它的正確性,準確性和完全性。清洗包括探測和修改錯誤,添加遺漏的元素和值,強制執行數據的標準,確認以及清除重復的條目。
集成:給所有系統和應用程序強加一個(gè)單獨并且全面的對數據的解釋?zhuān)源藖?lái)保證片斷的數據源能夠被合并以及被傳輸,從而消除數據結構,定義和表達上的矛盾和差異。這也經(jīng)常意味著(zhù)解決不同上下文中同樣的術(shù)語(yǔ)不一致的使用和意義。
傳輸:所有需要此使用權的用戶(hù)和應用程序,都可以在適當的形式下及時(shí)地得到正確相關(guān)的數據。這可能意味著(zhù)需要響應一些查詢(xún)請求,這些查詢(xún)請求可能得到單條記錄或者小的結果數據集合,從而為趨向分析和企業(yè)范圍的報告傳輸完整的數據集合。這個(gè)步驟同樣也解決了數據安全性,易得性,隱私性和與訪(fǎng)問(wèn)和使用有關(guān)的需求的靈活性(例如用于醫療記錄的HIPAA等等)。
開(kāi)發(fā)和管理:這是基于XML的工具集合真正得到認可的步驟,它使得那些管理數據的人,商業(yè)分析家,架構師,開(kāi)發(fā)者和經(jīng)理們一起努力,共同創(chuàng )造出一個(gè)廣泛的集合,其中包括數據集成規則,過(guò)程,實(shí)施和程序,從而捕獲和實(shí)現所有以上五個(gè)步驟得到的大量工作。這個(gè)步驟同時(shí)也解決了一些主要的企業(yè)應用程序和服務(wù)中與表現,靈活性和使用性需求相關(guān)的關(guān)鍵問(wèn)題。
審核,監控和報告:一旦它的語(yǔ)義和使用已經(jīng)被捕獲,遺漏被修補,錯誤被改正,并且質(zhì)量得到檢驗和認可,這時(shí)就需要進(jìn)行觀(guān)測和分析以保證數據干凈,正確,可靠和易得。這個(gè)部分的過(guò)程使得標記潛在問(wèn)題成為可能——因為它們通過(guò)生命周期發(fā)生和循環(huán)回來(lái),從而保證它們得到解決。審核同時(shí)也幫助保證數據的可視,可控制,以及可以監督以后的變化和增補。
在所有這些步驟中,XML能夠起到主要作用。尤其是在第1步到第4步中,XML表示方法和元數據能夠清楚地顯示出數據結構,語(yǔ)義,使用形式以及行為規則。XML同樣能夠幫助協(xié)調這些數據模擬的真實(shí)情況中可能存在的潛在沖突問(wèn)題。通過(guò)使得難以理解和難以存檔的數據集合變得容易理解,正確,并且使得它們的管理得到發(fā)展,企業(yè)組織可以獲得巨大的收益。
聯(lián)系客服