通用搜索引擎在某些方面的表現越來(lái)越差強人意,一種全新的基于對象的垂直搜索技術(shù)更加一目了然。
本刊記者 李洋
小李要買(mǎi)一部智能手機,想了解幾款產(chǎn)品的介紹、價(jià)位和評價(jià)等信息。但是當他用通用搜索引擎查找信息時(shí),卻得到了五花八門(mén)的結果。令人頭疼的是,他必須挨個(gè)點(diǎn)進(jìn)鏈接,注冊一堆論壇賬號,還要自己把各種看到的信息綜合起來(lái),才能獲得關(guān)于這部手機的完整資料。
是的,通用搜索引擎在某些方面的表現越來(lái)越差強人意。那么,如何讓搜索結果變得更加一目了然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互聯(lián)網(wǎng)周刊》介紹了一種由他們研究成功的“對象級別的垂直搜索技術(shù)”(Object-level Vertical Search)。
一目了然的結果
這個(gè)聽(tīng)起來(lái)有點(diǎn)學(xué)術(shù)化的技術(shù)其實(shí)并不難理解。當你使用這種搜索引擎時(shí),它列出的結果將是最終對象的集合,而不是雜亂的網(wǎng)頁(yè)列表。一切的一切都圍繞著(zhù)你所搜索的那個(gè)對象。
比如,當你搜索“多普達”時(shí),系統列出的不是包含此信息的各種頁(yè)面標題、內容檢索,而是一個(gè)個(gè)多普達手機—除型號、圖片等直觀(guān)信息外,每個(gè)產(chǎn)品下還列出介紹、價(jià)格、用戶(hù)評價(jià)等相關(guān)信息,就像我們在購物網(wǎng)站中看到的陳列頁(yè)面一樣,但內容要遠比某個(gè)網(wǎng)站所陳列的豐富,因為是來(lái)自整個(gè)互聯(lián)網(wǎng)。搜索引擎所列出的對象內容并不是通過(guò)人工來(lái)整理的,而是計算機通過(guò)自動(dòng)抓取、自動(dòng)分類(lèi)而形成的“虛擬”頁(yè)面。
這項技術(shù)目前已經(jīng)獲得初步應用。在微軟亞洲研究院作為實(shí)驗的學(xué)術(shù)搜索(libra.msra.cn/)中,當你輸入“Data Mining”(數據挖掘)這一關(guān)鍵詞,便可獲得相關(guān)論文的排名列表。結果以論文為對象進(jìn)行排列,每篇論文下都可列出被引用次數和作者;點(diǎn)進(jìn)每篇論文的鏈接,可以看到該論文的介紹、可供瀏覽和下載的原始鏈接,以及相關(guān)的參考論文。
與此同時(shí),在論文的結果列表左側,還有相關(guān)作者、會(huì )議、期刊的排名。如果再按“作者”(Author)搜索,系統會(huì )自動(dòng)排列出“數據挖掘”領(lǐng)域內最權威的科學(xué)家名單,與此類(lèi)似的,你還可以進(jìn)行相關(guān)的會(huì )議、期刊和學(xué)術(shù)社區等方面的搜索。目前,微軟的該學(xué)術(shù)搜索還僅限于計算機領(lǐng)域。
與基于文字的搜索結果相比,基于對象的搜索結果顯然更加一目了然,實(shí)現更加垂直而專(zhuān)業(yè)的搜索效果。目前,這項來(lái)自微軟亞洲研究院的技術(shù),正在應用到Windows Live產(chǎn)品搜索引擎(Http://products.live.com)的測試版開(kāi)發(fā)中。以產(chǎn)品作為對象的搜索結果中,用戶(hù)還可以按照相關(guān)度、價(jià)格進(jìn)行排名,或按照一些熱點(diǎn)針對某家網(wǎng)站進(jìn)行搜索。
核心技術(shù)
那么,這項技術(shù)是如何實(shí)現的?細心的讀者可能從前面的介紹中看出端倪,這是區別于傳統搜索引擎思路的一個(gè)新的體系結構。
首先,它要依靠網(wǎng)頁(yè)爬蟲(chóng)技術(shù),抓取某一個(gè)特定領(lǐng)域(比如一個(gè)照相機產(chǎn)品)中的所有相關(guān)網(wǎng)頁(yè)。在獲得這些頁(yè)面后,系統要對這些網(wǎng)頁(yè)中所包含的對象信息類(lèi)型進(jìn)行分類(lèi),也就是說(shuō),它要分辨某個(gè)網(wǎng)頁(yè)究竟是一篇論文、一個(gè)博客頁(yè)面,還是一個(gè)商品信息頁(yè)面。
在完成了這項工作后,系統就可以分門(mén)別類(lèi)地將內容集成到對象信息倉庫中。而這項工作需要事前進(jìn)行大量的訓練和模型組建。比如,在一個(gè)商品頁(yè)面的訓練中,要告訴系統什么情況下是商品名稱(chēng)、商品圖片、價(jià)格;通過(guò)此類(lèi)學(xué)習之后,系統就可以自動(dòng)找到它所要的關(guān)鍵內容。
在這一領(lǐng)域的研究中,曾有人在HTML代碼上做過(guò)嘗試,卻都不太成功,因為代碼的編寫(xiě)總是千差萬(wàn)別的,但最后它們所實(shí)現的頁(yè)面顯示卻幾乎大同小異。在發(fā)現了這一點(diǎn)后,微軟亞洲研究院的研究員們在這一過(guò)程中巧妙地結合了視覺(jué)分析技術(shù),設計一些算法讓計算機能夠像人類(lèi)一樣,看到一個(gè)頁(yè)面的“興趣中心”,并智能地做出判斷。
在進(jìn)行了抓取、分類(lèi)、抽取之后,垂直搜索引擎就可以利用這些結構化的對象信息,來(lái)應對用戶(hù)的提問(wèn),進(jìn)行各種智能分析和挖掘工作。
推翻現有架構
這樣一種技術(shù)是具有革命性的。用戶(hù)可以利用它進(jìn)行各種垂直類(lèi)的深度搜索。它在推翻即有架構之后,無(wú)疑要比傳統搜索引擎經(jīng)受更多的考驗。
比如,要保證結構化信息的高質(zhì)量、全面性、準確度。并且,由于這一搜索引擎的數據庫,要存儲互聯(lián)網(wǎng)上以及各地離線(xiàn)數據庫中的相關(guān)對象信息,對存儲和運行規模的可伸縮性也提出了挑戰,這一技術(shù)必須擁有一個(gè)能夠存儲數以十萬(wàn)計的“超級數據庫”,并且保證其算法能夠足夠快速地進(jìn)行檢索。
在給用戶(hù)帶來(lái)便利的同時(shí),新的搜索引擎帶來(lái)了一系列圍繞技術(shù)規則改變而衍生的商業(yè)模式潛在變化。比如,在基于對象的搜索引擎中,傳統的網(wǎng)頁(yè)排名方法(PageRank)已不適用。微軟亞洲研究院的研究員們提出了流行度排級(PopRank)。
這項所搜即所得的技術(shù)具有很強的通用性,除了產(chǎn)品搜索、學(xué)術(shù)搜索外,還可以應用到黃頁(yè)、博客、人物、工作職位、飯館、機票搜索等多種垂直搜索領(lǐng)域,而其與電子商務(wù)的結合、新廣告形式的衍生,將是一個(gè)嶄新的話(huà)題。
聯(lián)系客服