對于網(wǎng)格的認識與理解,現在已經(jīng)不局限于計算了,它的價(jià)值已經(jīng)延伸到了計算應用領(lǐng)域的不斷擴展和豐富。今天,我們就網(wǎng)格計算應用領(lǐng)域的發(fā)展和未來(lái)前景進(jìn)行一下探討。
以前,我們談起網(wǎng)格的時(shí)候,總把它想得像電力網(wǎng)一樣,“插上插頭”就能源源不斷地獲得計算能力?,F在,網(wǎng)格早已遠遠超出了計算的范疇。除了計算網(wǎng)格外,數據網(wǎng)格、儀器網(wǎng)格、虛擬現實(shí)網(wǎng)格、服務(wù)網(wǎng)格、信息網(wǎng)格、知識網(wǎng)格等,將網(wǎng)格應用擴展到方方面面。網(wǎng)格的應用領(lǐng)域主要有五個(gè)方面:分布式超級計算、分布式儀器系統、數據密集型計算、遠程沉浸和信息集成,他們所呈現的特點(diǎn)和發(fā)展方如下:
分布式超級計算 分布式超級計算(Distributed Supercomputing)是指將分布在不同地點(diǎn)的超級計算機用高速網(wǎng)絡(luò )連接起來(lái),并用網(wǎng)格中間件軟件“粘合”起來(lái),形成比單臺超級計算機強大得多的計算平臺。事實(shí)上,網(wǎng)格的最初設計目標主要就是要滿(mǎn)足更大規模的計算需求,Globus正是從這類(lèi)應用起家的。在這個(gè)領(lǐng)域有兩個(gè)應用引人關(guān)注:
第一個(gè)是軍事仿真項目SF Express,它將大型軍事仿真任務(wù)分解到分布式環(huán)境中運行,在場(chǎng)景分發(fā)、資源配置、資源管理、信息服務(wù)、日志服務(wù)、監視和容錯等方面,都利用了Globus Toolkit的動(dòng)態(tài)管理功能。
第二個(gè)應用稱(chēng)作數字相對論,它利用網(wǎng)格求解愛(ài)因斯坦相對論方程并模擬出天體的運動(dòng)規律。該項目使用了4臺超級計算機,并采用了許多措施來(lái)優(yōu)化分布式計算的整體性能,運行效率由優(yōu)化前的15%,提升到了優(yōu)化后的63%。
分布式儀器系統 分布式儀器系統(Distributed Instrumentation System)是指用網(wǎng)格管理分布在各地的貴重儀器系統,提供遠程訪(fǎng)問(wèn)儀器設備的手段,來(lái)提高儀器的利用率,方便用戶(hù)的使用。在網(wǎng)格出現之前,人們就試圖通過(guò)網(wǎng)絡(luò )訪(fǎng)問(wèn)一些儀器設備或儀器數據,但當時(shí)的軟硬件環(huán)境還不成熟,只能實(shí)現一些低要求應用。而網(wǎng)格將分布式儀器系統變成了一個(gè)非常易于管理和有彈性的系統。這個(gè)領(lǐng)域有代表性的是美國能源部支持的XPort項目。它基于Globus,能提供遠程儀器使用規劃、儀器操作、數據獲取、篩選和分析等功能,它明顯地簡(jiǎn)化了巨型分子晶體結構的設計和實(shí)施??萍脊ぷ髡咧灰绵]包把晶體快遞給儀器所在地,就可以在自己的實(shí)驗室中獲取到晶體內部結構的可視化圖像。
數據密集型計算 數據密集型計算(Data Intensive Computing)對應的數據網(wǎng)格更側重于數據的存貯、傳輸和處理。在這個(gè)領(lǐng)域獨占鰲頭的項目是歐洲原子能研究機構CERN所開(kāi)展的數據網(wǎng)格DataGrid項目,它的目標是處理2005年建成的大型強子對撞機源源不斷產(chǎn)生的PB/s量級實(shí)驗數據。
遠程沉浸 遠程沉浸(Tele-immersion)是一種特殊的網(wǎng)絡(luò )化虛擬現實(shí)環(huán)境。這個(gè)環(huán)境可以是對現實(shí)或歷史的逼真反映,可以是對高性能計算結果或
數據庫的可視化,也可以是個(gè)純粹虛構的空間。“沉浸”的意思是人可以完全融入其中:各地的參與者通過(guò)網(wǎng)絡(luò )聚在同一個(gè)虛擬空間里,既可以隨意漫游,又可以相互溝通,還可以與虛擬環(huán)境交互,使之發(fā)生改變。目前,已經(jīng)開(kāi)發(fā)出幾十個(gè)遠程沉浸應用,包括虛擬歷史博物館、協(xié)同學(xué)習環(huán)境等。更重要的是,它將“人/機交互”模式擴展成為“人/機/人協(xié)作”模式,不僅提供協(xié)同環(huán)境,還將對數據庫的實(shí)時(shí)訪(fǎng)問(wèn)、數據挖掘、高性能計算等集成了進(jìn)來(lái),為科技工作者提供了一種嶄新的協(xié)同研究模式。
信息集成 網(wǎng)格最早是以集成異構計算平臺的身份出現,接著(zhù)跨入分布式海量數據處理領(lǐng)域,自然而然地,網(wǎng)格將在信息集成領(lǐng)域一展身手。所謂的信息網(wǎng)格,就是要通過(guò)統一的信息交換架構和大量的中間件,向用戶(hù)提供“信息隨手可得”式的服務(wù)。
信息網(wǎng)格研究的中心問(wèn)題有如何描述信息、存儲信息、發(fā)布信息和查找信息;如何將異構平臺、不同格式、不同表述方式的信息進(jìn)行轉換,實(shí)現信息的無(wú)障礙交換;如何充分利用現有網(wǎng)絡(luò )技術(shù),如HTTP、XML、WSDL、UDDI、SOAP等,構成一個(gè)完整的服務(wù)鏈;信息的語(yǔ)義表示,即如何賦予信息以?xún)群?,以及如何避免信息的二義性;如何對信息加密,防止信息泄露,等等。
網(wǎng)格信息集成將更多地用在商業(yè)上。網(wǎng)格將使分布在世界各地的應用程序和各種信息,能夠進(jìn)行無(wú)縫融合和溝通,從而形成嶄新的商業(yè)機會(huì )。例如,對于一位想到美國旅行的人來(lái)說(shuō),他需要辦理各種手續,如護照、簽證、機票、酒店、地面交通等。如果所有的服務(wù)設施都把它們的服務(wù)通過(guò)網(wǎng)格發(fā)布出來(lái)了的話(huà),就可以讓程序自動(dòng)為其辦理手續和安排行程了。
網(wǎng)格應用分析 早期的網(wǎng)格應用是架構在五層沙漏模型上的,主要是針對科學(xué)計算應用,僅限于學(xué)術(shù)界的話(huà)題。當時(shí),科學(xué)家們設想把網(wǎng)格變得像電力網(wǎng)一樣,只要“插上插頭”就能使用前所未有的計算能力。然而,經(jīng)過(guò)幾年的實(shí)踐,證明這些設想在目前階段尚不現實(shí)。
實(shí)際上,構建通用的計算網(wǎng)格是比較困難的。因為很多應用是通信密集型的,子任務(wù)之間有頻繁的通信,而遠程的網(wǎng)絡(luò )帶寬遠不及系統區域網(wǎng)和局域網(wǎng)內的帶寬,這就是用大規模網(wǎng)格計算的效果,可能還不及使用規模小得多的集群計算的原因。從長(cháng)遠來(lái)看,帶寬的問(wèn)題終將得到解決,因為網(wǎng)絡(luò )帶寬每9個(gè)月就會(huì )增長(cháng)1倍,比每18個(gè)月增長(cháng)1倍的處理器提升速度還快。不過(guò),即使帶寬的問(wèn)題解決了,通信延遲的影響也不可小視。因為網(wǎng)絡(luò )速度的上限是光速,而光速每秒鐘為30萬(wàn)公里,傳送3000公里就需要10毫秒,這種延遲比集群內部微秒量級的延遲要大得多??磥?lái),即便將來(lái)網(wǎng)格能夠提供像電力一樣的計算服務(wù),還是需要針對應用程序的特性作專(zhuān)門(mén)優(yōu)化,以盡可能地減少通信延遲帶來(lái)的巨大影響。
網(wǎng)格的“出路” 對于科學(xué)計算而言,建議使用“網(wǎng)格計算池”模式。“網(wǎng)格計算池”將計算網(wǎng)格限定為三點(diǎn)。
計算資源共享(N臺本地或異地高性能計算機加入這個(gè)系統中)。數學(xué)分析表明,這可以明顯地提高資源的利用率和服務(wù)質(zhì)量。
不把一個(gè)任務(wù)分解成M個(gè)子任務(wù),而只是安排在其中一臺合適的機器上運行。事實(shí)上,現在只有極少的任務(wù)是任何單臺高性能計算機都無(wú)法處理的。這條限定可以在避免分解任務(wù)的復雜性的同時(shí),降低用戶(hù)使用高性能計算的門(mén)檻。更重要的是,它可以避免任務(wù)子模塊之間頻繁通信造成性能下降。
通過(guò)Web提交任務(wù)和查看結果。這可以方便用戶(hù)訪(fǎng)問(wèn)高性能計算機:用戶(hù)不必出差,不必到實(shí)驗室排隊,在家中就可以24小時(shí)提交和運行任務(wù)。一般來(lái)說(shuō),提交任務(wù)和返回結果的通信量,相比計算時(shí)的內部通信量要小得多。
網(wǎng)格進(jìn)入商用化 信息集成(如信息網(wǎng)格、服務(wù)網(wǎng)格、知識網(wǎng)格等)將是最近幾年網(wǎng)格最可能流行起來(lái)的應用方向。2002年2月20日,Globus聯(lián)盟和IBM在全球網(wǎng)格論壇上發(fā)布了開(kāi)放性網(wǎng)格服務(wù)架構OGSA(Open Grid Services Architecture)及其詳細規范OGSI(Open Grid Services Infrastructure),把Globus標準與支持商用的Web Services的標準結合起來(lái)。2004年1月20日,Globus聯(lián)盟、IBM和HP等又聯(lián)合發(fā)布了新的網(wǎng)格標準草案WSRF(Web Services Resource Framework),干脆把OGSI轉換成了6個(gè)用于擴展Web Services的規范。這時(shí),網(wǎng)格服務(wù)已經(jīng)與Web服務(wù)徹底融為一體了。這標志著(zhù)網(wǎng)格已經(jīng)調整好方向,將信息集成作為第一目標了。這一步,標志著(zhù)網(wǎng)格商用化的時(shí)代已經(jīng)來(lái)臨。
此外,數據網(wǎng)格也將會(huì )產(chǎn)生成功的應用模式。Globus目前已經(jīng)提供或即將提供一些基本的數據網(wǎng)格功能,如數據高速傳輸、數據復制、數據復制的選擇、元數據管理等。 其實(shí),在Globus之前,就已經(jīng)有一些成功的分布式海量數據管理系統,如存儲資源代理系統SRB、高性能存儲系統HPSS和分布式并行存儲系統DPSS等。SRB為用戶(hù)提供了一個(gè)訪(fǎng)問(wèn)文件系統、檔案系統、數據庫系統等多種異構存儲系統的統一接口,屏蔽了存儲系統的異構特性,支持廣域網(wǎng)絡(luò )環(huán)境下多種數據源的訪(fǎng)問(wèn),已經(jīng)被幾十家單位使用。HPSS項目早就在1993年就開(kāi)始了,是一個(gè)層次化的存儲系統,其目標是讓海量數據能夠在網(wǎng)絡(luò )化存儲、高性能計算機、海量數據庫之間快速傳遞。HPSS也已經(jīng)有不少的用戶(hù),將來(lái)像SRB、HPSS這樣的系統,都會(huì )提供類(lèi)似數據網(wǎng)格的標準接口??梢灶A見(jiàn),Internet已經(jīng)變成了一個(gè)數據海洋,對這種能將分布、異構、海量的數據集成起來(lái)的數據網(wǎng)格會(huì )有大量需求。
在1994年秋季舉辦的COMDEX大會(huì )上,比爾·蓋茨曾經(jīng)預言,2005年將實(shí)現“信息隨手可得”的目標。2004年第3季度,基于新標準WSRF的網(wǎng)格平臺Globus Toolkit 4.0將面世??梢韵胂?,到了2005年,會(huì )出現大量融Web Services和網(wǎng)格服務(wù)為一體的新型服務(wù)出現,讓計算機跨越時(shí)間和空間的限制,自動(dòng)獲取和處理信息成為現實(shí)。從這個(gè)意義上講,比爾·蓋茨的預言是極其準確的,正如他在上個(gè)世紀70年代就預測到PC機將占據每個(gè)人的桌面一樣。