
現有互聯(lián)網(wǎng)的飛速發(fā)展使它的缺陷逐漸暴露了出來(lái),如網(wǎng)頁(yè)功能單調、搜索引擎智能化程度低等,這是因為大部分Web上的內容是設計給人閱讀的,而不是讓計算機程序按其意義進(jìn)行操作的。計算機能熟練地解析網(wǎng)頁(yè)的版面,知道哪里是標題,哪里有與其他頁(yè)面的鏈接。但是,它分辨不出個(gè)人主頁(yè)和天氣預報的區別,因為沒(méi)有可靠的方法來(lái)處理其中的語(yǔ)義,沒(méi)有辦法智能地理解網(wǎng)頁(yè)內容和進(jìn)行操作。
語(yǔ)義Web就是想彌補這方面的不足,為網(wǎng)頁(yè)擴展了計算機可處理的語(yǔ)義信息。語(yǔ)義Web中,各種資源被人為地賦予了各種明確的語(yǔ)義信息,計算機可以分辨和識別這些語(yǔ)義信息,并對其自動(dòng)進(jìn)行解釋、交換和處理。但是語(yǔ)義Web與人工智能中的語(yǔ)義網(wǎng)絡(luò )是兩個(gè)不同的概念,它的研究對象和所采用的方法與傳統自然語(yǔ)言處理也是不同的,它對現有的Web進(jìn)行了語(yǔ)義擴展,從而使其能被計算機做一定的理解和處理,從功能上看它將是一個(gè)能夠“理解”人類(lèi)信息的智能網(wǎng)絡(luò )。將語(yǔ)義Web融入現在Web結構的初步努力已經(jīng)在進(jìn)行中了。不久的將來(lái),當機器有更強的能力去處理和“理解”數據時(shí),我們將看到很多重要的新功能。例如,某人想報名參加一個(gè)研討會(huì ),計算機就可自動(dòng)地為其制定最佳日程和路線(xiàn)以及預定酒店等。
互聯(lián)網(wǎng)的創(chuàng )始人Tim Berners-Lee在2000年提出了語(yǔ)義Web的概念和體系結構。
在其體系結構中,第一層是Unicode和URI,它是整個(gè)語(yǔ)義Web的基礎,Unicode(統一編碼)處理資源的編碼,URI(統一資源定位器)負責標識資源;第二層是XML+名空間+XML模式,用于表示數據的內容和結構;第三層是RDF+RDF模式,用于描述資源及其類(lèi)型;第四層是本體詞匯,用于描述各種資源之間的聯(lián)系;第五層是邏輯,在下面四層的基礎上進(jìn)行邏輯推理操作;第六層是驗證,根據邏輯陳述進(jìn)行驗證以得出結論;第七層是信任,在用戶(hù)間建立信任關(guān)系。
第二、三、四層是語(yǔ)義Web的關(guān)鍵層,用于表示W(wǎng)eb信息的語(yǔ)義,也是現在語(yǔ)義Web研究的熱點(diǎn)所在??蓴U展標記語(yǔ)言XML (eXtensible Markup Language)讓每個(gè)人都能創(chuàng )建自己的標簽,來(lái)對網(wǎng)頁(yè)或頁(yè)面的部分文字進(jìn)行注釋。 腳本,或者說(shuō)是程序,可以將這些標簽運用到復雜的應用中,不過(guò)程序編寫(xiě)者必須知道網(wǎng)頁(yè)作者是如何使用每一個(gè)標簽的。簡(jiǎn)而言之,XML允許用戶(hù)在文檔中加入任意的結構。資源描述框架RDF (Resource Description Framework )的基本結構是對象-屬性-值三元組,也就相當于句子中的主語(yǔ)、動(dòng)詞和賓語(yǔ)。這些三元組可以用XML語(yǔ)法來(lái)表示。用這種結構描述由機器處理的大量數據,是非常自然的方法。RDF模式是一個(gè)描述RDF資源的屬性(Property)和類(lèi)(Class)的詞匯表,提供了關(guān)于這些屬性和類(lèi)的層次結構的語(yǔ)義。
因為兩個(gè)系統可能采用不同的標識符表示同一概念,也可能用一個(gè)標識符表示不同的含義,程序若要在兩個(gè)數據庫之間進(jìn)行信息的比較和合并,就必須了解某些標識符表示的是否是同一事物。對該問(wèn)題的一個(gè)解決方法就是本體論(Ontology)。本體是概念化的顯式說(shuō)明,包括分類(lèi)和一套推理規則。分類(lèi)定義對象的類(lèi)別及其之間的關(guān)系,使我們能夠表達實(shí)體之間的大量關(guān)系,而根據推理規則,程序可以進(jìn)行自動(dòng)推理。簡(jiǎn)單地說(shuō),就是在不同的系統間定義一本字典或者度量表,使它們對實(shí)體及其之間的關(guān)系達成共識,以便交流和共享。
語(yǔ)義Web需要能夠對Web文檔中的術(shù)語(yǔ)含義進(jìn)行形式化描述。DAML+OIL(即DARPA代理標記語(yǔ)言+本體推論語(yǔ)言),OWL(Web本體語(yǔ)言),它們是W3C規范的重要擴充和改進(jìn),都是建立在人工智能知識表示基礎之上的本體語(yǔ)言,提供了一種自然方式來(lái)描述在Web詞間的類(lèi)與子類(lèi)之間的關(guān)系,以及在類(lèi)與類(lèi)之間(或子類(lèi)與子類(lèi)之間)關(guān)系上的限制。它們比RDF模式添加了更多的用于描述屬性和類(lèi)的詞匯,例如類(lèi)之間的不相交性(Disjointness)、等價(jià)性、更豐富的屬性類(lèi)型、屬性特征等。
當然,要實(shí)現語(yǔ)義Web是遠遠不夠的,更主要的技術(shù)難題還在于要讓電腦可以進(jìn)行更多的“思考”和“推斷”。為使語(yǔ)義Web工作,計算機必須能訪(fǎng)問(wèn)結構化的信息集合以及一套推理規則,據此進(jìn)行自動(dòng)推理。增加邏輯性——使用規則去推理,選擇行動(dòng)的方式以及回答問(wèn)題的方法——是語(yǔ)義Web組織面臨的一個(gè)任務(wù)。
有了大量富含語(yǔ)義信息的網(wǎng)頁(yè),就好像有了一個(gè)巨大的全球互聯(lián)的數據庫。有了語(yǔ)義信息的幫助,人們開(kāi)發(fā)出的軟件代理Agent程序的智能和自動(dòng)化將大大提高,它們從不同的資源中收集網(wǎng)頁(yè)內容,搜索和處理信息并和其他程序交換信息,真正發(fā)揮語(yǔ)義Web的力量。當出現更多的機器可處理的網(wǎng)頁(yè)內容和服務(wù)(包括更多的代理)時(shí),通過(guò)代理之間的信息交換和協(xié)同工作,信息處理的效率將呈指數級增長(cháng),能更好地滿(mǎn)足用戶(hù)的需求。
網(wǎng) 格
網(wǎng)格是一種新興的技術(shù),正處在不斷發(fā)展和變化當中。簡(jiǎn)單地說(shuō),網(wǎng)格是一種信息社會(huì )的網(wǎng)絡(luò )基礎設施,是利用互聯(lián)網(wǎng)把分散在不同地理位置上的多個(gè)資源,包括計算資源、存儲資源、通信資源、軟件資源、信息資源、知識資源等全面連通和統一分配、管理及協(xié)調起來(lái),通過(guò)邏輯關(guān)系組成一臺“虛擬的超級計算機”。這臺機器把每一臺參與其中的、包括個(gè)人電腦在內的計算機都作為自己的一個(gè)“節點(diǎn)”,成千上萬(wàn)個(gè)這樣的“節點(diǎn)”并聯(lián)起來(lái),就組成了“一張有超級計算能力的網(wǎng)格”。而每一位將自己的計算機連接到網(wǎng)格上的用戶(hù),也就“擁有了”這架超級計算機,可以隨時(shí)隨地調用其中的計算和信息資源,在獲得一體化信息服務(wù)的同時(shí),最大程度地實(shí)現資源共享。網(wǎng)格計算模式首先把要計算的數據分割,然后不同節點(diǎn)的計算機可以根據自己的處理能力下載一個(gè)或多個(gè)數據片斷。只要位于某個(gè)節點(diǎn)的計算機的用戶(hù)不使用計算機時(shí),就會(huì )調動(dòng)閑置的計算能力。網(wǎng)格的優(yōu)勢在于不但數據處理能力超強,而且能充分利用網(wǎng)上的閑置處理能力來(lái)節約計算成本,實(shí)現資源的共享,消除資源孤島。
網(wǎng)格計算技術(shù)首先出現在科研領(lǐng)域的大型科學(xué)計算和項目研究中,醫藥、制造、氣象、勘探等需要大型計算機功能的行業(yè)將首批成為這一技術(shù)的受益者,隨著(zhù)連接到網(wǎng)格系統上的計算資源的增加,網(wǎng)格計算技術(shù)也會(huì )造福于小企業(yè)和消費者,家庭PC用戶(hù)也將能夠用上公、私機構提供的更快、更廉價(jià)的服務(wù),到那時(shí)任何設備可以在任何地方接入以享用某種層次的資源,而不必關(guān)心這些資源是從那里來(lái)的, 就像用現在的電網(wǎng)一樣。
美國自然科學(xué)基金于1997年啟動(dòng)了高級計算框架計劃(PACI),歐盟于2000年和2001年分別啟動(dòng)了EuroGrid和DataGrid。2001年全球網(wǎng)格論壇(Global Grid Forum)成立, 這是一個(gè)規范網(wǎng)格研究,制定網(wǎng)格標準的國際組織。就像TCP/IP協(xié)議是Internet的核心一樣,構建網(wǎng)格也需要對標準協(xié)議和服務(wù)進(jìn)行定義。迄今為止,網(wǎng)格還沒(méi)有正式的標準,但在核心技術(shù)上,相關(guān)機構與企業(yè)已達成一致:由美國Argonne國家實(shí)驗室與南加州大學(xué)信息科學(xué)學(xué)院(ISI)合作開(kāi)發(fā)的Globus Toolkit已成為網(wǎng)格計算事實(shí)上的標準。企業(yè)界的網(wǎng)格相關(guān)研究開(kāi)發(fā)工作中,最重要的就是Web服務(wù)。目前,一些業(yè)界巨頭已經(jīng)就幾個(gè)底層標準協(xié)議達成了共識,包括XML、SOAP、WSDL、UDDI等。
語(yǔ)義網(wǎng)格
結合語(yǔ)義Web、網(wǎng)格和Web服務(wù)的優(yōu)點(diǎn)和彌補各自的不足,研究人員提出了語(yǔ)義網(wǎng)格的概念。附圖表明了Web、網(wǎng)格、語(yǔ)義Web和語(yǔ)義網(wǎng)格的關(guān)系,網(wǎng)格是Web在計算能力上的提升,而語(yǔ)義網(wǎng)格是網(wǎng)格在語(yǔ)義能力上的擴展;從另一個(gè)角度說(shuō),語(yǔ)義Web是在現有Web上增強了語(yǔ)義能力,而語(yǔ)義網(wǎng)格是語(yǔ)義Web對計算能力的擴展。
在英國的e-Science計劃研究中,人們發(fā)現,網(wǎng)格的現有努力和e-Science設想之間存在差距,要達到e-Science的易用性和無(wú)縫自動(dòng)化要求,必須實(shí)現盡量多的機器可處理性和盡量少的人類(lèi)介入,這卻和語(yǔ)義Web的目標有一些相似,于是在2001年最先提出了語(yǔ)義網(wǎng)格的構想,并且于2002年在全球網(wǎng)格論壇GGF成立了語(yǔ)義網(wǎng)格研究組SEM-GRD。他們的語(yǔ)義網(wǎng)格構想的關(guān)鍵之處就是把所有的資源,包括服務(wù),都用一種機器可處理的方式來(lái)描述,其目標是實(shí)現語(yǔ)義的互操作性。達到這個(gè)目標的一種實(shí)現方法是把語(yǔ)義Web的技術(shù)應用到網(wǎng)格計算的開(kāi)發(fā)中,下至基礎設施上至網(wǎng)格應用。值得注意的是“語(yǔ)義”是從下到上彌漫在整個(gè)網(wǎng)格中而不是僅僅在其上增加了一個(gè)語(yǔ)義(知識)層。
中國科學(xué)院計算技術(shù)研究所知識網(wǎng)格研究組在諸葛海研究員的帶領(lǐng)下正在開(kāi)展語(yǔ)義網(wǎng)格方面的研究,通過(guò)采用新的計算模式和新的資源組織和管理的模型,可有效地輔助用戶(hù)進(jìn)行資源獲取、共享、管理、協(xié)同工作和決策等,為人們提供更深層、更全面、更智能的服務(wù)。重點(diǎn)解決三個(gè)科學(xué)問(wèn)題:資源的規范組織、語(yǔ)義互聯(lián)和智能聚合。
·規范組織。提出資源空間模型和資源的規范化組織和管理的理論、方法、技術(shù)和工具,使各種無(wú)序資源(信息、知識和服務(wù))規范組織,使用戶(hù)和服務(wù)能夠有效、正確地根據語(yǔ)義操作各種資源,以提高資源的使用效率。
·語(yǔ)義互聯(lián)。通過(guò)多層語(yǔ)義互聯(lián)和單一語(yǔ)義映像,使分布在全球的各種網(wǎng)絡(luò )資源在語(yǔ)義層上互聯(lián),消除資源孤島,主要通過(guò)類(lèi)型化的語(yǔ)義鏈網(wǎng)絡(luò )來(lái)使資源的語(yǔ)義能被機器所理解。
·智能聚合。解決如何使資源能夠互相理解,根據用戶(hù)的需求有效、動(dòng)態(tài)、智能地聚合各種資源,這主要通過(guò)軟設備來(lái)實(shí)現。
聯(lián)系客服