本報記者 孫永杰
第二代搜索引擎面臨挑戰
提到搜索引擎,人們會(huì )馬上想到Google,從技術(shù)角度講,Google是第二代搜索引擎的典型代表。從Google誕生至今已有六年多時(shí)間,Internet上先后誕生了數千個(gè)提供檢索服務(wù)的站點(diǎn),著(zhù)名的有Google、Dogpile、百度等。雖然這些站點(diǎn)的搜索引擎在收錄的范圍、內容、檢索方法上各有不同,技術(shù)上各具特色,但它們在引擎的技術(shù)原理上卻是一致的,始終處于第二代搜索引擎范疇。
第二代搜索引擎是以Pagerank為代表的超鏈分析技術(shù),根據網(wǎng)頁(yè)之間的超鏈關(guān)系來(lái)決定網(wǎng)頁(yè)內容的重要程度,它在現有技術(shù)對網(wǎng)頁(yè)內容缺乏足夠認識時(shí)發(fā)揮了作用,但其理論基礎并不堅實(shí),因為這體現的是“誰(shuí)的聲音大,誰(shuí)就代表真理”的思想,也就是誰(shuí)的鏈接多、流量大,誰(shuí)的排名就靠前。比如有關(guān)SARS的文章,新浪網(wǎng)上的文章會(huì )排在中華醫學(xué)會(huì )網(wǎng)站的前面。這些事例都表明超鏈分析只是一種參照性技術(shù),而無(wú)法揭露內容本身。
如果無(wú)法理解內容,也就無(wú)法做到個(gè)性化。幾年來(lái),搜索網(wǎng)站都在利用相似的超鏈分析技術(shù)對搜索結果進(jìn)行排序,各家也會(huì )不時(shí)打開(kāi)競爭對手的網(wǎng)站,查看一下別人的排序情況,思量一番再微調自己的參數。這樣調來(lái)調去,各家網(wǎng)站的搜索結果變得越發(fā)相似。中搜的相關(guān)人士告訴記者,結果和別人不同,可能做得好;如果結果和別人相同,肯定沒(méi)法做得好。第二代搜索使用的超鏈分析技術(shù)已經(jīng)不可能實(shí)質(zhì)性改善搜索質(zhì)量了。
如何實(shí)現用戶(hù)搜索的個(gè)性化、智能化,以及更快、更準確地搜索到用戶(hù)想要信息,這一需求變得越發(fā)迫切,搜索引擎技術(shù)再次走到了一個(gè)革命的路口。
專(zhuān)業(yè)搜索
——中國搜索本地化的優(yōu)勢
如果在桌面搜索技術(shù)和市場(chǎng)上,Google和微軟依舊占據著(zhù)優(yōu)勢的話(huà),那么在國內,專(zhuān)業(yè)搜索的出現,則為我們的搜索引擎提供了趕超的機會(huì )。據業(yè)內相關(guān)人士介紹,目前,搜索引擎市場(chǎng)的主導方向還是“博大”,重導航作用輕精準信息服務(wù)。如何在信息的海洋中撈“金針”呢?這就需要我們的工具更快速、更專(zhuān)業(yè)和更個(gè)性,于是,“專(zhuān)業(yè)搜索”悄然步入傳統搜索引擎的領(lǐng)地。
從技術(shù)的層面來(lái)看,專(zhuān)業(yè)搜索的技術(shù)與以前的搜索技術(shù)相比從以下幾個(gè)方面得到了提高。搜索技術(shù)不斷開(kāi)發(fā)適用和實(shí)用的更小搜索單位,發(fā)現精深信息內容的方法將得到利用,用戶(hù)將得到更加準確的內容,而不僅僅是得到包含關(guān)鍵字的網(wǎng)頁(yè)。專(zhuān)業(yè)搜索將做到識別信息并將信息整理好,用友好的界面返回給用戶(hù)。結合專(zhuān)業(yè)功能的移動(dòng)搜索,即移動(dòng)終端上的專(zhuān)業(yè)搜索,讓更多的人開(kāi)始使用搜索引擎,而且使專(zhuān)業(yè)搜索真正專(zhuān)業(yè)。
盡管Google在搜索引擎市場(chǎng)領(lǐng)先,然而非本土化的運作,畢竟有其局限性,隨著(zhù)中國網(wǎng)民日益走向成熟,他們自己的喜好也逐漸顯現出與美國觀(guān)念的不同之處。Google長(cháng)期堅持不在新窗口中打開(kāi)搜索結果頁(yè)面使得很多中國用戶(hù)感到無(wú)奈,MP3,貼吧等功能的缺失更使得Google與中國用戶(hù)的距離漸行漸遠,Google對中國語(yǔ)言文化的了解和認同恐怕永遠不能夠達到國內搜索引擎的水平。首先中文是雙字節,英文是單字節;中文需要切詞,而英文不需要。Google要在中文搜索市場(chǎng)有所作為,這兩方面都得重新開(kāi)始,而這里面需要極其復雜的技術(shù)。事實(shí)上,Google在雙字地區罕有成功,比如韓國、日本。除此之外,Google還受到一些非商業(yè)因素的影響,這更增加了其進(jìn)軍中國市場(chǎng)的不可預知性。而當互聯(lián)網(wǎng)越來(lái)越成為人們生活的一部分,搜索越來(lái)越成為人們不可或缺的工具時(shí),人們從搜索引擎中尋找對自己語(yǔ)言和文化的認同感的愿望恐怕就越來(lái)越強烈。所以作為國內搜索引擎先鋒的百度稱(chēng),總有一種力量讓我們做得更好,告訴世界,一個(gè)民族的搜索力量應該掌握在自己手中。
為此,作為國內搜索引擎市場(chǎng)老大的百度打造了其所謂的技術(shù)、平臺、文化相結合的楔形競爭力。在這里,技術(shù)、平臺都是直指專(zhuān)業(yè)搜索領(lǐng)域。
根據賽迪顧問(wèn)公司最近做的一項調查顯示,互聯(lián)網(wǎng)用戶(hù)經(jīng)常使用的搜索功能主要集中在網(wǎng)頁(yè)、音樂(lè )、圖片、購物等四項專(zhuān)業(yè)搜索功能上。例如在音樂(lè )搜索方面,一搜和百度以絕對的優(yōu)勢,領(lǐng)先于其他的搜索引擎。在圖片搜索方面,百度以44.7%的優(yōu)勢領(lǐng)先其他的搜索引擎。這個(gè)統計數據說(shuō)明,在專(zhuān)業(yè)搜索領(lǐng)域,國內的廠(chǎng)商依舊具有獨特的優(yōu)勢。
桌面搜索——微軟與Google的技術(shù)博弈
需求引發(fā)革命,搜索引擎的技術(shù)革命似乎日趨臨近,但是關(guān)于第三代搜索引擎的概念卻還沒(méi)有統一的定論。但有一點(diǎn)是可以肯定的,搜索引擎將在諸多方面發(fā)生著(zhù)深刻的變化:搜索技術(shù)將更加智能化;搜索資源將更加廣泛;搜索方式將更加便捷、有效;專(zhuān)項搜索將更加豐富。
于是以個(gè)性化搜索為主要特征的桌面搜索從去年開(kāi)始成為了廠(chǎng)商競逐的熱點(diǎn)。相對網(wǎng)絡(luò )搜索,桌面搜索在功能上可以更加方便地實(shí)現終端用戶(hù)的個(gè)性化、智能化需求,并且語(yǔ)音、視頻等多媒體搜索方式也將得到平臺的依靠,具備進(jìn)一步開(kāi)發(fā)應用可能。在搜索范圍上,桌面搜索實(shí)現了更加廣泛的選擇,從電腦到網(wǎng)絡(luò )包括本地硬盤(pán)、局域網(wǎng)、互聯(lián)網(wǎng),每個(gè)角落都可以用桌面搜索尋找要找的東西。在這里要說(shuō)明的是,雖然各公司紛紛投入桌面搜索的研發(fā)和發(fā)布,但各個(gè)公司對桌面搜索的定義卻不盡相同。Google、百度認為桌面搜索應該只針對計算機本地信息的搜索,如文檔、郵件、圖片、網(wǎng)站瀏覽記錄等。微軟、Yahoo、中搜的桌面搜索產(chǎn)品卻是包括本地搜索以及互聯(lián)網(wǎng)搜索在內的全方位的桌面搜索軟件,搜索方式便捷且專(zhuān)項搜索也更為豐富。
說(shuō)到桌面搜索的真正競爭是從2004年10月開(kāi)始的,Google第一個(gè)推出了桌面搜索,立刻受到網(wǎng)民追捧,這個(gè)舉措同時(shí)也將“桌面搜索”的概念清晰化。緊隨其后,12月微軟推出了MSN桌面搜索;2005年1月,雅虎推出了硬盤(pán)搜索工具。進(jìn)入到3月,桌面搜索的競爭開(kāi)始變得白熱化。先是中國搜索發(fā)布了“網(wǎng)絡(luò )豬”的最新版本,接著(zhù)是Google、百度發(fā)布了各自的桌面搜索新產(chǎn)品,桌面搜索新的“圈地運動(dòng)”展開(kāi)了。
桌面搜索“就像是電腦的照相存儲器,任何在計算機上瀏覽過(guò)的信息都能輕松搜索到”,它將對現有的搜索方式產(chǎn)生極大的挑戰。這巨大的誘惑力使得國內外的搜索廠(chǎng)商們紛紛加入到競爭中。但終級的博弈還是在軟件技術(shù)力量強大的微軟與Google之間展開(kāi),這從近日李開(kāi)復棄微軟轉投Google而使微軟極度惱火的事實(shí)可見(jiàn)一斑,因為李開(kāi)復此前在微軟主要負責微軟MSN搜索技術(shù)的研發(fā)。
盡管在桌面搜索上,Google占了先手,并動(dòng)之以挖對手墻腳的策略。但微軟畢竟是微軟,在軟件技術(shù)上不出手便罷,一出手必然指向全球最高目標,PC和手機操作系統無(wú)不如此。在搜索領(lǐng)域,微軟“雙管齊下”,一邊拿MSN最新版對抗Google,一邊在Windows Media Center系統中加入視頻搜索功能。另外,微軟的獨創(chuàng )之處在于,首先是打造了軟硬件結合的搜索平臺,其次是它提供了一些Google沒(méi)有的新功能。
沒(méi)有終點(diǎn)的較量——廠(chǎng)商角逐未來(lái)搜索引擎技術(shù)
搜索引擎從誕生至今,始終是技術(shù)推動(dòng)型的發(fā)展模式,在經(jīng)歷了二代的發(fā)展,進(jìn)入第三代的今天,人們已經(jīng)開(kāi)始面向未來(lái)的搜索技術(shù)的研發(fā)。這之中包括了搜索引擎的老大Google和其競爭對手微軟,也有一向以技術(shù)聞名IT界的IBM。
Google改善企業(yè)搜索和音視頻搜索:Google目前正在致力于研究分析音頻和視頻剪輯文件的算法。該公司還對軟件系統加以改進(jìn),將不同IT系統中的數據萃取到易于理解的分類(lèi)下,據稱(chēng)Google在其新聞網(wǎng)站上已經(jīng)采用了該技術(shù),搜索的準確率得到了很大的提高。
微軟加強搜索個(gè)性化:微軟認為,計算機用戶(hù)和搜索引擎交互還有一段艱難路途。該公司的市場(chǎng)分析顯示,對于多半問(wèn)題搜索引擎得不到令人滿(mǎn)意的答案,原因往往在于用戶(hù)沒(méi)有提供足夠多的細節信息。為此,微軟正在開(kāi)發(fā)一種工具,便于用戶(hù)設定其問(wèn)題,而且計算機易于得出相關(guān)答案。有跡象表明微軟正在利用其技術(shù)實(shí)力對搜索結果個(gè)性化。
IBM研究多媒體分析和語(yǔ)義搜索:對多媒體信息進(jìn)行分析也是縈繞在IBM技術(shù)人員頭腦中的想法,IBM認為,新型搜索技術(shù)將文檔視為“人類(lèi)語(yǔ)言的表達”,而不是匹配文字模式。除處理句法分析之外,IBM還在研究能夠理解語(yǔ)義的搜索引擎技術(shù)——詞在上下文中的含義。
目前,該公司正在開(kāi)發(fā)一種稱(chēng)作非結構化信息管理架構(UIMA)的軟件架構,它有助于其他程序獲取并分析文本、音頻、視頻中的數據,并且將之組織為更加結構化信息。在今后幾年內,IBM計劃公布UIMA技術(shù)細節,以幫助軟件廠(chǎng)商構建應用程序,通過(guò)文本挖掘及分析從存儲數據中提取有用信息。這將開(kāi)啟第三代搜索系統之門(mén),真正實(shí)現智能化。
P2P技術(shù)應用到網(wǎng)頁(yè)的檢索中:P2P是peer-to-peer的縮寫(xiě),意為對等網(wǎng)絡(luò )。它通過(guò)共享所有硬盤(pán)上的文件、目錄乃至整個(gè)硬盤(pán),用戶(hù)搜索時(shí)無(wú)需通過(guò)Web服務(wù)器,不受信息文檔格式的限制,即可達到傳統目錄式搜索引擎無(wú)可比擬的深度(傳統引擎只能達到20%~30%的網(wǎng)絡(luò )資源)。美國一家新興搜索引擎設計公司i5 Digital在兩年前已正式推出了依據對等搜索理念的商業(yè)性搜索引擎Pandango(www.pandango.com),但它至今仍未進(jìn)入主流搜索引擎陣容的事實(shí),則說(shuō)明P2P搜索是未來(lái)的技術(shù)發(fā)展方向。