—明智的新選擇
■ 龐引明
讓擁有知識的人能方便地共享自己的知識,讓需要知識的人可以簡(jiǎn)單快捷地找到知識,這是企業(yè)知識管理系統的一個(gè)追求,而基于XML的知識管理系統正成為企業(yè)一個(gè)明智的新選擇。 現在知識管理已經(jīng)非常“流行”,企業(yè)不斷推出各種知識管理解決方案,包括IBM及微軟這樣著(zhù)名的公司在內的幾乎所有IT企業(yè)都在推銷(xiāo)自己的知識管理理念及相關(guān)技術(shù)與產(chǎn)品。從商業(yè)公司到各種組織都正在開(kāi)發(fā)各種知識管理系統。 不過(guò),在建立知識管理系統方面,基于XML的知識管理系統開(kāi)始引起人們的注意,現已成為一個(gè)非常重要的發(fā)展方向。 早期系統投石問(wèn)路 其實(shí)早在幾年前,國際上就有若干研究機構陸續投入基于XML的知識管理系統的研發(fā)。其中,較為著(zhù)名的可以列舉幾家。 德國GMD-IPSI(德國國家信息技術(shù)研究中心集成出版和信息系統研究所)的研究小組,聯(lián)合西班牙、法國、奧地利等國的研究機構,開(kāi)發(fā)了XML-KM(IST-12030)系統。該項目立項于2000年年初,是一個(gè)利用XML技術(shù)進(jìn)行底層異構數據源的集成,采用數據倉庫和數據挖掘技術(shù)支持知識抽取,含有事務(wù)處理和安全控制較為完整的知識管理系統。 圖1就是經(jīng)過(guò)了簡(jiǎn)化的XML-KM(IST-12030)系統結構??梢钥闯?,信息的采集(集成)、知識的發(fā)現和抽取、知識的發(fā)布,三個(gè)層次較為分明地體現在系統中。該結構基本概括了以XML為基礎的知識管理系統的主要內容,因此在業(yè)界有著(zhù)一定的影響,在一段時(shí)間以來(lái)成為研發(fā)知識管理系統的重要參考。

圖1 XML-KM(IST-12030)系統結構 遺憾的是,上述系統雖然規劃了以XML數據庫作為系統的主要部分,但是,由于該項目起步較早,當時(shí)的XML數據庫技術(shù)尚不成熟,以XML技術(shù)來(lái)集成異構數據源的實(shí)踐也未開(kāi)始,因此系統從一開(kāi)始就遇到了較大的困難,并沒(méi)有取得預期的成果。但是,當我們這些后來(lái)者重新研讀該系統的技術(shù)資料時(shí),不得不為先行者的一些技術(shù)遠見(jiàn)所折服。 另一個(gè)XML知識管理系統的先行者就是INRIA(法國國立信息與自動(dòng)化研究院)。INRIA的VERSO小組開(kāi)發(fā)了著(zhù)名的XML數據庫系統xyleme,在XML數據庫及其相關(guān)技術(shù)方面有著(zhù)較為雄厚的技術(shù)積淀。WebCOKACE是INRIA的ACACIA小組正在開(kāi)發(fā)的知識管理產(chǎn)品,基于XML技術(shù)。 WebCOKACE主要有以下特點(diǎn): ● 在一個(gè)協(xié)同的平臺上,可以跨Internet和Intranet集成多個(gè)異構數據源。以XML作為數據的基本存儲形式,包括數據格式、知識模型和語(yǔ)義元數據的表達。 ● 引入本體(ontology)概念作為知識查詢(xún)的載體。在服務(wù)器端設計了一個(gè)解釋器,用來(lái)將CommonKADS形式表達的本體轉換成RDF(資源表述框架)模式,再到XML數據庫中查詢(xún)相關(guān)知識。它還設計了一個(gè)本體過(guò)濾引擎(ontological filtering engine),以回答客戶(hù)的簡(jiǎn)單查詢(xún)。 ● 作為一個(gè)應用例子,在應用層開(kāi)發(fā)了RESEDA系統,這是一個(gè)道路事故診斷系統,它可以利用服務(wù)器端開(kāi)發(fā)的一個(gè)推理引擎(Inference engine),接受用戶(hù)的查詢(xún)請求,查詢(xún)XML知識庫,經(jīng)過(guò)簡(jiǎn)單處理,給出事故診斷的初步建議。 在WebCOKACE系統中,集成異構數據源、XML數據表達、協(xié)同處理、知識建模、基于Web服務(wù)等較為流行的技術(shù)都得到了應用。 XML知識管理系統框架基本落地 近兩年來(lái),隨著(zhù)XML數據庫技術(shù)的不斷發(fā)展和成熟,更重要的是,隨著(zhù)應用需求的不斷發(fā)展,商用的基于XML的知識管理系統的研發(fā)和推廣日益深入。 加拿大的IXIASOFT公司在北美市場(chǎng)推出的相關(guān)知識管理產(chǎn)品,美國IPEDO公司在美國和亞太地區推出的KCP(知識協(xié)同平臺)產(chǎn)品,都是以各自的XML數據庫產(chǎn)品為基礎開(kāi)發(fā)的XML知識管理系統。國內的產(chǎn)品中,較有代表性的如長(cháng)沙麓谷數碼科技公司的基于XML的企業(yè)協(xié)同工作與知識管理平臺。 這些商用產(chǎn)品都有一些共性特點(diǎn),比如,都以XML數據庫技術(shù)為基礎,都以XML技術(shù)來(lái)集成跨系統的異構數據源,都支持J2EE/.NET企業(yè)應用構架,都提供基于工作流的協(xié)同工作機制,都支持Web端的動(dòng)態(tài)知識展現等。 圖2顯示了當前商用XML知識管理系統的基本框架。它綜合了目前主流的技術(shù)路線(xiàn)。它的主要技術(shù)特點(diǎn)有:

圖2 基于XML知識管理系統的一般結構 1. 異構數據源的集成 知識的演化途徑定義為:信息、數據、知識。很顯然,知識蘊含在大量的數據里面。而數據的形式是多樣化的,包括結構化的數據、半結構化的數據和非結構化的數據。有資料統計說(shuō),一般知識管理系統中的數據,結構化的只占到10%,其余90%都是半結構化和非結構化的數據。針對這種情況,XML技術(shù)正好可以發(fā)揮它的長(cháng)處。這就是為什么知識管理系統對XML技術(shù)的依賴(lài)會(huì )越來(lái)越強。由于數據是分散在多個(gè)異構的系統中,所以用XML技術(shù)來(lái)集成這些數據就顯得十分必要。 從技術(shù)實(shí)現的角度來(lái)說(shuō),在ERP系統、數據倉庫系統的背后,真正的數據存儲者可能是各種關(guān)系型數據庫;OA系統、文件系統和郵件系統面對的是文檔;而在互聯(lián)網(wǎng)上的則是浩如煙海的HTML文檔。 從用戶(hù)的角度來(lái)說(shuō),底層能夠集成盡可能多的數據源,就會(huì )搜集到盡可能多的知識源頭。 一般來(lái)說(shuō),數據集成的方式有兩種:實(shí)時(shí)的方式可以保證及時(shí)地抓取到最新的數據,但是對性能的影響會(huì )比較大,對數據同步的要求會(huì )比較高,在集成的異構數據源數量較多時(shí)效率會(huì )比較低。 非實(shí)時(shí)的方式不能保證及時(shí)地抓取到最新的數據,對數據同步的要求不會(huì )太高,可以在系統負載較小時(shí)進(jìn)行數據更新。實(shí)時(shí)方式適用在數據更新快、異構數據源較少的場(chǎng)合。非實(shí)時(shí)的方式則適用在異構數據源較多、數據更改不太頻繁的情況下。 2. 知識建模和整理加工 知識建模和整理加工是整個(gè)知識管理系統的核心部分,也是現今知識管理系統的薄弱環(huán)節。 圖3是意大利卡拉布里亞大學(xué)的Mario Cannataro教授等人提出的針對半結構化數據的知識抽取過(guò)程,較好地概括了在XML數據庫基礎上的知識建模和知識發(fā)現過(guò)程。

圖3 知識建模和知識加工的一般過(guò)程 從底層看,XML數據庫系統作為信息的存儲和交換的基礎平臺。這里需要定義知識描述的XML框架,也就是經(jīng)常提到的元數據模型(Metadata)。 第二層就是知識建模層。在底層的XML數據庫系統平臺中,利用XML來(lái)描述概念模型(conceptual knowledge),XSL(eXtensible Stylesheet Language)是用來(lái)轉換和格式化XML的相關(guān)語(yǔ)言。知識建模的一般過(guò)程就是,XSL從XML模型中讀取信息并用來(lái)產(chǎn)生UML模型。如果說(shuō)XML是一種表達信息的工具,那么XSL就是用來(lái)操作這些信息的語(yǔ)言。 OMG定義的MOF(Meta Object Facility)語(yǔ)言可以用來(lái)描述基于UML的整體模型(meta-model)。XMI(XML Metadata Interchange Format)是基于XML表述UML的格式語(yǔ)言。從XML信息模型中產(chǎn)生的中間設計模型可以通過(guò)XMI或MOF來(lái)實(shí)現。這里轉換成中間XMI模型的過(guò)程應該是一目了然的,因為XSL簡(jiǎn)化了從XML到XMI的轉換。 第三層,知識的組織和集成。所謂知識的組織和集成就是通過(guò)建立數據倉庫,利用OLAP工具來(lái)實(shí)現對知識的加工和整理?;赬ML的數據倉庫技術(shù)的研究和開(kāi)發(fā)近年來(lái)一直是業(yè)界關(guān)注的熱點(diǎn)。在數據庫界的三大國際會(huì )議(SIGMOD、VLDB、ICDE)上,每年都有一定數量的文章,研究的熱點(diǎn)主要集中在XML數據的清洗(cleaning)、數據建模和查詢(xún)、如何在XML數據上建立OLAP立方體(cube)等方面。 隨著(zhù)XML數據庫技術(shù)的不斷發(fā)展,XML數據倉庫技術(shù)也開(kāi)始由實(shí)驗室產(chǎn)品走向商用系統。其中比較著(zhù)名的就是法國INRIA的Xyleme計劃的Dynamic Data Warehouse for the XML Data of the Web(Web上XML數據的動(dòng)態(tài)數據倉庫)項目。 該項目的設計目標是將互聯(lián)網(wǎng)上的所有XML數據都整理裝入XML數據倉庫。數據量是TB級。該系統的主要技術(shù)特點(diǎn)概括為: ● 存儲系統采用的是德國曼海姆大學(xué)開(kāi)發(fā)的Natix系統。Natix是業(yè)內著(zhù)名的以存儲管理樹(shù)型數據見(jiàn)長(cháng)的系統,十分適合XML數據。 ● 在查詢(xún)處理方面,支持主流的XML查詢(xún)語(yǔ)言(如XQuery等),并為此設計了出色的Xyleme索引機制。 ● 在數據獲取方面,采用推(通過(guò)Web服務(wù)方式發(fā)布)和拉(在Web上漫游)兩種方式,由于數據量較大而采取并發(fā)地處理方式。 ● 在變更控制方面,設置了一個(gè)服務(wù)器來(lái)及時(shí)處理網(wǎng)頁(yè)變更和用戶(hù)的個(gè)性化訂閱。 ● 在語(yǔ)義數據集成方面,要求每一個(gè)XML文檔都附加DTD(文檔類(lèi)型定義),沒(méi)有DTD的文檔必須在抽取DTD后才可以入庫。這樣就保證了在用戶(hù)查詢(xún)時(shí)面對的是在語(yǔ)義上經(jīng)過(guò)DTD聚類(lèi)的XML數據,以提高查詢(xún)效率。 最后一層:數據挖掘,以發(fā)現隱性知識、建立知識之間的聯(lián)系。 由于知識的主要表現形式是各類(lèi)文檔,所以,所謂知識挖掘就是文本挖掘(TextMining)。盡管文本挖掘技術(shù)的發(fā)展相當迅速,但是基于XML文檔的文本挖掘技術(shù)卻有著(zhù)特殊的難點(diǎn),難就難在XML文檔數據本身的樹(shù)型結構?;赬ML的文本挖掘技術(shù)呈現出下列特點(diǎn): ● 在特征集的提取方面,由于傳統的文本挖掘技術(shù)面對的是有限結構或者完全沒(méi)有結構的一般文檔,而XML文檔具有半結構化的特性。因此,在特征集的提取上可以采用較為成熟的頻繁模式(頻繁子樹(shù))挖掘技術(shù),用到較多的圖論知識,比如兩棵樹(shù)之間的匹配算法等。 ● 在聚類(lèi)和分類(lèi)方面,由于XML文檔附帶的DTD的存在,可以考慮將XML文檔抽取DTD,再在編輯距離(edit distance)定義的基礎上實(shí)現DTD的多層分類(lèi)索引,然后較為方便地將相關(guān)XML文檔予以分類(lèi)。同樣,頻繁子樹(shù)挖掘技術(shù)在這里同樣有用武之地。關(guān)于從XML文檔中抽取相應的DTD,技術(shù)上已經(jīng)相對成熟了。 ● 類(lèi)似的,在提取了DTD和挖掘了頻繁模式之后,自動(dòng)摘要功能就會(huì )容易實(shí)現。粗糙地看,文檔的頻繁子樹(shù)的集合(森林)就可以看成一篇摘要。當然,這樣扁平(flat)的摘要還要經(jīng)過(guò)一定的處理。常用方法就是修剪頻繁子樹(shù)森林。 3. 企業(yè)級應用的中間件組件庫 經(jīng)過(guò)知識的整理和加工,就進(jìn)入了支持各種企業(yè)應用的中間件產(chǎn)品庫。具體來(lái)說(shuō),就是: ● 支持協(xié)同工作的工作流產(chǎn)品,配合知識管理部分實(shí)現知識的流轉和沉淀。 ● 支持Web端的實(shí)時(shí)信息展現的動(dòng)態(tài)報表產(chǎn)品,通過(guò)底層的信息集成工具,可以實(shí)時(shí)動(dòng)態(tài)地將信息展現給用戶(hù)。 ● 支持應用層知識的查詢(xún)、沉淀等功能的知識管理產(chǎn)品,提供諸如知識地圖、文檔上傳、個(gè)性化訂閱等功能。 ● 對知識文檔的瀏覽、下載、打印進(jìn)行控制的版權保護產(chǎn)品,主要采用電子水印等技術(shù)對知識文檔的安全進(jìn)行控制。 ● 全文檢索組件主要依賴(lài)于下層的分詞和索引技術(shù)的支持。自動(dòng)分詞和全文索引技術(shù)是知識管理系統的必備功能,實(shí)現時(shí)需要建立分詞詞庫,通過(guò)自學(xué)習的機制加以訓練,達到穩定狀態(tài)后才會(huì )具有較高的效率。 ● 版本管理、用戶(hù)和權限管理在一般的應用系統中較為常見(jiàn)。 4. 基于XML的門(mén)戶(hù)系統 一個(gè)企業(yè)或單位的XML知識管理系統的統一對外窗口就是門(mén)戶(hù)(Portal)系統?;赬ML的門(mén)戶(hù)系統區別于其他門(mén)戶(hù)系統的特點(diǎn)之一,就在于利用XML的描述語(yǔ)言替代HTML描述頁(yè)面。由于HTML的普通文本不是以對象方式描述的,所以普通文本的表示不是很方便,通常需要利用別的對象方式來(lái)描述文本的內容。 XML就可以更好地解決這個(gè)問(wèn)題,XML的DTD文檔描述結構可以很好地建立各種Tag與數據庫中所描述的信息對象的屬性關(guān)系,并將顯示和描述統一起來(lái)。利用DTD對所要描述的實(shí)體建立與數據庫元數據一致的描述關(guān)系,并且對文檔的操作可以通過(guò)Tag對象實(shí)現,可以方便地將數據庫中的數據輸入到動(dòng)態(tài)生成的XML文件描述中。在這種映射下,實(shí)現生成用戶(hù)滿(mǎn)意的信息表示格式,可以對系統提供靈活的界面定義。 中科院計算所的褚興軍等人設計的EPortal-I企業(yè)門(mén)戶(hù)系統就是一個(gè)基于XML的門(mén)戶(hù)系統。 技術(shù)難點(diǎn)和發(fā)展趨勢日益明朗 基于XML的知識管理系統是一個(gè)集信息集成、數據庫和信息檢索、數據挖掘、人工智能、協(xié)同處理、智能代理、知識工程、文本處理、Web技術(shù)于一身的綜合系統。任何一方面的技術(shù)進(jìn)展都會(huì )推動(dòng)其發(fā)展,可是任何一方面的技術(shù)難點(diǎn)又都會(huì )成為其難點(diǎn)。 依筆者的觀(guān)點(diǎn),系統面臨的技術(shù)難點(diǎn)和可能的發(fā)展趨勢是: ● XML數據庫作為本系統的知識存儲介質(zhì),在系統中處于核心的地位,它的發(fā)展對整個(gè)系統的影響是不言而喻的。如果打算用XML數據庫技術(shù)來(lái)發(fā)展知識管理系統,那么,有兩件事情是要做的:其一,提供基于加鎖機制的并發(fā)協(xié)議。因為知識庫走向海量是一個(gè)必然趨勢,而目前的XML數據庫中的并發(fā)處理手段相對薄弱。其二,在XML數據庫系統中支持文檔模式抽取,比如,可以方便地產(chǎn)生DTD。這一點(diǎn)十分有助于上層實(shí)現諸如建模、聚類(lèi)等功能。 ● 在知識描述和建模部分,引入本體論和語(yǔ)義網(wǎng)(semantic web)技術(shù)是趨勢。這些技術(shù)本身都處在發(fā)展過(guò)程中。本體論得到業(yè)界承認的多種方 法學(xué)都尚不成熟。語(yǔ)義網(wǎng)也剛剛被W3C確定為今后的發(fā)展重點(diǎn)。它們的發(fā)展會(huì )對知識描述和建模甚至整個(gè)系統產(chǎn)生影響。比如,加入本體模型的翻譯,可以使得多個(gè)用戶(hù)通過(guò)Web訪(fǎng)問(wèn)到協(xié)同層的對象層,通過(guò)活動(dòng)層完成協(xié)同工作。 而目前基于工作流的知識協(xié)同尚未做到這一點(diǎn)。 ● 知識整理加工和文本挖掘部分有非常多的工作有待完善?;陬l繁模式挖掘的摘要、聚類(lèi)、特征集提取的算法復雜度較高,針對海量數據,其效率不容樂(lè )觀(guān)。改進(jìn)算法,降低復雜度是一條途徑。而通過(guò)抽取DTD、建立多層索引從而在一定程度上避開(kāi)上述方法在實(shí)踐上或許是可以考慮的。 (計算機世界報 2005年07月25日 第29期 B2、B3)
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。