亚洲aV永久综合在线观看尤物_ 基于XML的知識管理系統

—明智的新選擇

■ 龐引明

讓擁有知識的人能方便地共享自己的知識，讓需要知識的人可以簡(jiǎn)單快捷地找到知識，這是企業(yè)知識管理系統的一個(gè)追求，而基于XML的知識管理系統正成為企業(yè)一個(gè)明智的新選擇。現在知識管理已經(jīng)非常“流行”，企業(yè)不斷推出各種知識管理解決方案，包括IBM及微軟這樣著(zhù)名的公司在內的幾乎所有IT企業(yè)都在推銷(xiāo)自己的知識管理理念及相關(guān)技術(shù)與產(chǎn)品。從商業(yè)公司到各種組織都正在開(kāi)發(fā)各種知識管理系統。不過(guò)，在建立知識管理系統方面，基于XML的知識管理系統開(kāi)始引起人們的注意，現已成為一個(gè)非常重要的發(fā)展方向。早期系統投石問(wèn)路其實(shí)早在幾年前，國際上就有若干研究機構陸續投入基于XML的知識管理系統的研發(fā)。其中，較為著(zhù)名的可以列舉幾家。德國GMD-IPSI(德國國家信息技術(shù)研究中心集成出版和信息系統研究所)的研究小組，聯(lián)合西班牙、法國、奧地利等國的研究機構，開(kāi)發(fā)了XML-KM（IST-12030）系統。該項目立項于2000年年初，是一個(gè)利用XML技術(shù)進(jìn)行底層異構數據源的集成，采用數據倉庫和數據挖掘技術(shù)支持知識抽取，含有事務(wù)處理和安全控制較為完整的知識管理系統。圖1就是經(jīng)過(guò)了簡(jiǎn)化的XML-KM（IST-12030）系統結構?？梢钥闯?，信息的采集（集成）、知識的發(fā)現和抽取、知識的發(fā)布，三個(gè)層次較為分明地體現在系統中。該結構基本概括了以XML為基礎的知識管理系統的主要內容，因此在業(yè)界有著(zhù)一定的影響，在一段時(shí)間以來(lái)成為研發(fā)知識管理系統的重要參考。

圖1 XML-KM（IST-12030）系統結構遺憾的是，上述系統雖然規劃了以XML數據庫作為系統的主要部分，但是，由于該項目起步較早，當時(shí)的XML數據庫技術(shù)尚不成熟，以XML技術(shù)來(lái)集成異構數據源的實(shí)踐也未開(kāi)始，因此系統從一開(kāi)始就遇到了較大的困難，并沒(méi)有取得預期的成果。但是，當我們這些后來(lái)者重新研讀該系統的技術(shù)資料時(shí)，不得不為先行者的一些技術(shù)遠見(jiàn)所折服。另一個(gè)XML知識管理系統的先行者就是INRIA(法國國立信息與自動(dòng)化研究院)。INRIA的VERSO小組開(kāi)發(fā)了著(zhù)名的XML數據庫系統xyleme，在XML數據庫及其相關(guān)技術(shù)方面有著(zhù)較為雄厚的技術(shù)積淀。WebCOKACE是INRIA的ACACIA小組正在開(kāi)發(fā)的知識管理產(chǎn)品，基于XML技術(shù)。 WebCOKACE主要有以下特點(diǎn)： ● 在一個(gè)協(xié)同的平臺上，可以跨Internet和Intranet集成多個(gè)異構數據源。以XML作為數據的基本存儲形式，包括數據格式、知識模型和語(yǔ)義元數據的表達。 ● 引入本體（ontology）概念作為知識查詢(xún)的載體。在服務(wù)器端設計了一個(gè)解釋器，用來(lái)將CommonKADS形式表達的本體轉換成RDF（資源表述框架）模式，再到XML數據庫中查詢(xún)相關(guān)知識。它還設計了一個(gè)本體過(guò)濾引擎（ontological filtering engine），以回答客戶(hù)的簡(jiǎn)單查詢(xún)。 ● 作為一個(gè)應用例子，在應用層開(kāi)發(fā)了RESEDA系統，這是一個(gè)道路事故診斷系統，它可以利用服務(wù)器端開(kāi)發(fā)的一個(gè)推理引擎（Inference engine），接受用戶(hù)的查詢(xún)請求，查詢(xún)XML知識庫，經(jīng)過(guò)簡(jiǎn)單處理，給出事故診斷的初步建議。在WebCOKACE系統中，集成異構數據源、XML數據表達、協(xié)同處理、知識建模、基于Web服務(wù)等較為流行的技術(shù)都得到了應用。 XML知識管理系統框架基本落地近兩年來(lái)，隨著(zhù)XML數據庫技術(shù)的不斷發(fā)展和成熟，更重要的是，隨著(zhù)應用需求的不斷發(fā)展，商用的基于XML的知識管理系統的研發(fā)和推廣日益深入。加拿大的IXIASOFT公司在北美市場(chǎng)推出的相關(guān)知識管理產(chǎn)品，美國IPEDO公司在美國和亞太地區推出的KCP（知識協(xié)同平臺）產(chǎn)品，都是以各自的XML數據庫產(chǎn)品為基礎開(kāi)發(fā)的XML知識管理系統。國內的產(chǎn)品中，較有代表性的如長(cháng)沙麓谷數碼科技公司的基于XML的企業(yè)協(xié)同工作與知識管理平臺。這些商用產(chǎn)品都有一些共性特點(diǎn)，比如，都以XML數據庫技術(shù)為基礎，都以XML技術(shù)來(lái)集成跨系統的異構數據源，都支持J2EE/.NET企業(yè)應用構架，都提供基于工作流的協(xié)同工作機制，都支持Web端的動(dòng)態(tài)知識展現等。圖2顯示了當前商用XML知識管理系統的基本框架。它綜合了目前主流的技術(shù)路線(xiàn)。它的主要技術(shù)特點(diǎn)有：

圖2 基于XML知識管理系統的一般結構 1. 異構數據源的集成知識的演化途徑定義為：信息、數據、知識。很顯然，知識蘊含在大量的數據里面。而數據的形式是多樣化的，包括結構化的數據、半結構化的數據和非結構化的數據。有資料統計說(shuō)，一般知識管理系統中的數據，結構化的只占到10%，其余90%都是半結構化和非結構化的數據。針對這種情況，XML技術(shù)正好可以發(fā)揮它的長(cháng)處。這就是為什么知識管理系統對XML技術(shù)的依賴(lài)會(huì )越來(lái)越強。由于數據是分散在多個(gè)異構的系統中，所以用XML技術(shù)來(lái)集成這些數據就顯得十分必要。從技術(shù)實(shí)現的角度來(lái)說(shuō)，在ERP系統、數據倉庫系統的背后，真正的數據存儲者可能是各種關(guān)系型數據庫;OA系統、文件系統和郵件系統面對的是文檔;而在互聯(lián)網(wǎng)上的則是浩如煙海的HTML文檔。從用戶(hù)的角度來(lái)說(shuō)，底層能夠集成盡可能多的數據源，就會(huì )搜集到盡可能多的知識源頭。一般來(lái)說(shuō)，數據集成的方式有兩種:實(shí)時(shí)的方式可以保證及時(shí)地抓取到最新的數據，但是對性能的影響會(huì )比較大，對數據同步的要求會(huì )比較高，在集成的異構數據源數量較多時(shí)效率會(huì )比較低。非實(shí)時(shí)的方式不能保證及時(shí)地抓取到最新的數據，對數據同步的要求不會(huì )太高，可以在系統負載較小時(shí)進(jìn)行數據更新。實(shí)時(shí)方式適用在數據更新快、異構數據源較少的場(chǎng)合。非實(shí)時(shí)的方式則適用在異構數據源較多、數據更改不太頻繁的情況下。 2. 知識建模和整理加工知識建模和整理加工是整個(gè)知識管理系統的核心部分，也是現今知識管理系統的薄弱環(huán)節。圖3是意大利卡拉布里亞大學(xué)的Mario Cannataro教授等人提出的針對半結構化數據的知識抽取過(guò)程，較好地概括了在XML數據庫基礎上的知識建模和知識發(fā)現過(guò)程。

圖3 知識建模和知識加工的一般過(guò)程從底層看，XML數據庫系統作為信息的存儲和交換的基礎平臺。這里需要定義知識描述的XML框架，也就是經(jīng)常提到的元數據模型（Metadata）。第二層就是知識建模層。在底層的XML數據庫系統平臺中，利用XML來(lái)描述概念模型（conceptual knowledge），XSL(eXtensible Stylesheet Language)是用來(lái)轉換和格式化XML的相關(guān)語(yǔ)言。知識建模的一般過(guò)程就是，XSL從XML模型中讀取信息并用來(lái)產(chǎn)生UML模型。如果說(shuō)XML是一種表達信息的工具，那么XSL就是用來(lái)操作這些信息的語(yǔ)言。 OMG定義的MOF(Meta Object Facility)語(yǔ)言可以用來(lái)描述基于UML的整體模型(meta-model)。XMI(XML Metadata Interchange Format)是基于XML表述UML的格式語(yǔ)言。從XML信息模型中產(chǎn)生的中間設計模型可以通過(guò)XMI或MOF來(lái)實(shí)現。這里轉換成中間XMI模型的過(guò)程應該是一目了然的，因為XSL簡(jiǎn)化了從XML到XMI的轉換。第三層，知識的組織和集成。所謂知識的組織和集成就是通過(guò)建立數據倉庫，利用OLAP工具來(lái)實(shí)現對知識的加工和整理?；赬ML的數據倉庫技術(shù)的研究和開(kāi)發(fā)近年來(lái)一直是業(yè)界關(guān)注的熱點(diǎn)。在數據庫界的三大國際會(huì )議（SIGMOD、VLDB、ICDE）上，每年都有一定數量的文章，研究的熱點(diǎn)主要集中在XML數據的清洗（cleaning）、數據建模和查詢(xún)、如何在XML數據上建立OLAP立方體（cube）等方面。隨著(zhù)XML數據庫技術(shù)的不斷發(fā)展，XML數據倉庫技術(shù)也開(kāi)始由實(shí)驗室產(chǎn)品走向商用系統。其中比較著(zhù)名的就是法國INRIA的Xyleme計劃的Dynamic Data Warehouse for the XML Data of the Web（Web上XML數據的動(dòng)態(tài)數據倉庫）項目。該項目的設計目標是將互聯(lián)網(wǎng)上的所有XML數據都整理裝入XML數據倉庫。數據量是TB級。該系統的主要技術(shù)特點(diǎn)概括為： ● 存儲系統采用的是德國曼海姆大學(xué)開(kāi)發(fā)的Natix系統。Natix是業(yè)內著(zhù)名的以存儲管理樹(shù)型數據見(jiàn)長(cháng)的系統，十分適合XML數據。 ● 在查詢(xún)處理方面，支持主流的XML查詢(xún)語(yǔ)言（如XQuery等），并為此設計了出色的Xyleme索引機制。 ● 在數據獲取方面，采用推（通過(guò)Web服務(wù)方式發(fā)布）和拉（在Web上漫游）兩種方式，由于數據量較大而采取并發(fā)地處理方式。 ● 在變更控制方面，設置了一個(gè)服務(wù)器來(lái)及時(shí)處理網(wǎng)頁(yè)變更和用戶(hù)的個(gè)性化訂閱。 ● 在語(yǔ)義數據集成方面，要求每一個(gè)XML文檔都附加DTD(文檔類(lèi)型定義)，沒(méi)有DTD的文檔必須在抽取DTD后才可以入庫。這樣就保證了在用戶(hù)查詢(xún)時(shí)面對的是在語(yǔ)義上經(jīng)過(guò)DTD聚類(lèi)的XML數據，以提高查詢(xún)效率。最后一層：數據挖掘，以發(fā)現隱性知識、建立知識之間的聯(lián)系。由于知識的主要表現形式是各類(lèi)文檔，所以，所謂知識挖掘就是文本挖掘（TextMining）。盡管文本挖掘技術(shù)的發(fā)展相當迅速，但是基于XML文檔的文本挖掘技術(shù)卻有著(zhù)特殊的難點(diǎn)，難就難在XML文檔數據本身的樹(shù)型結構?；赬ML的文本挖掘技術(shù)呈現出下列特點(diǎn)： ● 在特征集的提取方面，由于傳統的文本挖掘技術(shù)面對的是有限結構或者完全沒(méi)有結構的一般文檔，而XML文檔具有半結構化的特性。因此，在特征集的提取上可以采用較為成熟的頻繁模式（頻繁子樹(shù)）挖掘技術(shù)，用到較多的圖論知識，比如兩棵樹(shù)之間的匹配算法等。 ● 在聚類(lèi)和分類(lèi)方面，由于XML文檔附帶的DTD的存在，可以考慮將XML文檔抽取DTD，再在編輯距離（edit distance）定義的基礎上實(shí)現DTD的多層分類(lèi)索引，然后較為方便地將相關(guān)XML文檔予以分類(lèi)。同樣，頻繁子樹(shù)挖掘技術(shù)在這里同樣有用武之地。關(guān)于從XML文檔中抽取相應的DTD，技術(shù)上已經(jīng)相對成熟了。 ● 類(lèi)似的，在提取了DTD和挖掘了頻繁模式之后，自動(dòng)摘要功能就會(huì )容易實(shí)現。粗糙地看，文檔的頻繁子樹(shù)的集合（森林）就可以看成一篇摘要。當然，這樣扁平（flat）的摘要還要經(jīng)過(guò)一定的處理。常用方法就是修剪頻繁子樹(shù)森林。 3. 企業(yè)級應用的中間件組件庫經(jīng)過(guò)知識的整理和加工，就進(jìn)入了支持各種企業(yè)應用的中間件產(chǎn)品庫。具體來(lái)說(shuō)，就是： ● 支持協(xié)同工作的工作流產(chǎn)品，配合知識管理部分實(shí)現知識的流轉和沉淀。 ● 支持Web端的實(shí)時(shí)信息展現的動(dòng)態(tài)報表產(chǎn)品，通過(guò)底層的信息集成工具，可以實(shí)時(shí)動(dòng)態(tài)地將信息展現給用戶(hù)。 ● 支持應用層知識的查詢(xún)、沉淀等功能的知識管理產(chǎn)品，提供諸如知識地圖、文檔上傳、個(gè)性化訂閱等功能。 ● 對知識文檔的瀏覽、下載、打印進(jìn)行控制的版權保護產(chǎn)品，主要采用電子水印等技術(shù)對知識文檔的安全進(jìn)行控制。 ● 全文檢索組件主要依賴(lài)于下層的分詞和索引技術(shù)的支持。自動(dòng)分詞和全文索引技術(shù)是知識管理系統的必備功能，實(shí)現時(shí)需要建立分詞詞庫，通過(guò)自學(xué)習的機制加以訓練，達到穩定狀態(tài)后才會(huì )具有較高的效率。 ● 版本管理、用戶(hù)和權限管理在一般的應用系統中較為常見(jiàn)。 4. 基于XML的門(mén)戶(hù)系統一個(gè)企業(yè)或單位的XML知識管理系統的統一對外窗口就是門(mén)戶(hù)（Portal）系統?；赬ML的門(mén)戶(hù)系統區別于其他門(mén)戶(hù)系統的特點(diǎn)之一，就在于利用XML的描述語(yǔ)言替代HTML描述頁(yè)面。由于HTML的普通文本不是以對象方式描述的，所以普通文本的表示不是很方便，通常需要利用別的對象方式來(lái)描述文本的內容。 XML就可以更好地解決這個(gè)問(wèn)題，XML的DTD文檔描述結構可以很好地建立各種Tag與數據庫中所描述的信息對象的屬性關(guān)系，并將顯示和描述統一起來(lái)。利用DTD對所要描述的實(shí)體建立與數據庫元數據一致的描述關(guān)系，并且對文檔的操作可以通過(guò)Tag對象實(shí)現，可以方便地將數據庫中的數據輸入到動(dòng)態(tài)生成的XML文件描述中。在這種映射下，實(shí)現生成用戶(hù)滿(mǎn)意的信息表示格式，可以對系統提供靈活的界面定義。中科院計算所的褚興軍等人設計的EPortal-I企業(yè)門(mén)戶(hù)系統就是一個(gè)基于XML的門(mén)戶(hù)系統。技術(shù)難點(diǎn)和發(fā)展趨勢日益明朗基于XML的知識管理系統是一個(gè)集信息集成、數據庫和信息檢索、數據挖掘、人工智能、協(xié)同處理、智能代理、知識工程、文本處理、Web技術(shù)于一身的綜合系統。任何一方面的技術(shù)進(jìn)展都會(huì )推動(dòng)其發(fā)展，可是任何一方面的技術(shù)難點(diǎn)又都會(huì )成為其難點(diǎn)。依筆者的觀(guān)點(diǎn)，系統面臨的技術(shù)難點(diǎn)和可能的發(fā)展趨勢是： ● XML數據庫作為本系統的知識存儲介質(zhì)，在系統中處于核心的地位，它的發(fā)展對整個(gè)系統的影響是不言而喻的。如果打算用XML數據庫技術(shù)來(lái)發(fā)展知識管理系統，那么，有兩件事情是要做的：其一，提供基于加鎖機制的并發(fā)協(xié)議。因為知識庫走向海量是一個(gè)必然趨勢，而目前的XML數據庫中的并發(fā)處理手段相對薄弱。其二，在XML數據庫系統中支持文檔模式抽取，比如，可以方便地產(chǎn)生DTD。這一點(diǎn)十分有助于上層實(shí)現諸如建模、聚類(lèi)等功能。 ● 在知識描述和建模部分，引入本體論和語(yǔ)義網(wǎng)（semantic web）技術(shù)是趨勢。這些技術(shù)本身都處在發(fā)展過(guò)程中。本體論得到業(yè)界承認的多種方法學(xué)都尚不成熟。語(yǔ)義網(wǎng)也剛剛被W3C確定為今后的發(fā)展重點(diǎn)。它們的發(fā)展會(huì )對知識描述和建模甚至整個(gè)系統產(chǎn)生影響。比如，加入本體模型的翻譯，可以使得多個(gè)用戶(hù)通過(guò)Web訪(fǎng)問(wèn)到協(xié)同層的對象層，通過(guò)活動(dòng)層完成協(xié)同工作。而目前基于工作流的知識協(xié)同尚未做到這一點(diǎn)。 ● 知識整理加工和文本挖掘部分有非常多的工作有待完善?；陬l繁模式挖掘的摘要、聚類(lèi)、特征集提取的算法復雜度較高，針對海量數據，其效率不容樂(lè )觀(guān)。改進(jìn)算法，降低復雜度是一條途徑。而通過(guò)抽取DTD、建立多層索引從而在一定程度上避開(kāi)上述方法在實(shí)踐上或許是可以考慮的。（計算機世界報 2005年07月25日第29期 B2、B3）

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久