例如,當我們問(wèn),
法國的首都是哪里?兩種搜索技術(shù)都返回正確答案,
巴黎。同樣,我們在 Google 中搜索的時(shí)候,不管使用自然語(yǔ)言還是縮寫(xiě)式搜索語(yǔ)言,返回的結果都差不多。我們都知道語(yǔ)意搜索技術(shù)很強大,但強大在哪里?本文中我們會(huì )看到問(wèn)題出在我們的搜索提問(wèn)方式不對。
自然語(yǔ)言搜索引擎為我們提供了一個(gè)和 Google 一樣的搜索框,我們在這個(gè)搜索框中輸入搜索問(wèn)題的時(shí)候,不自覺(jué)地使用了那些最原始的提問(wèn)方式,如,法國的首都是哪里,我們很少問(wèn),
同時(shí)在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪個(gè)演員?,或者,
那兩個(gè)接收國外政治獻金的美國議員是誰(shuí)?我們輸入的問(wèn)題太簡(jiǎn)單,這無(wú)法體現語(yǔ)意搜索的強大,我們下面會(huì )談到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技術(shù)在語(yǔ)意技術(shù)上的對比。
我們要解決的問(wèn)題第一個(gè)困惑來(lái)自這樣的事實(shí),就是,語(yǔ)意搜索已經(jīng)被推向可以解決一切問(wèn)題的位置,從以 Google 為代表的現代搜索問(wèn)題,到一些計算機根本無(wú)法解決的問(wèn)題,更嚴重的是,目前語(yǔ)意搜索只能在一個(gè)狹小的范圍內做得比較好,就是那些牽扯到對復雜數據進(jìn)行推理的查詢(xún)。
象上圖中顯示的那樣,基礎查詢(xún),Google 很容易處理,不幸的是,自然語(yǔ)言在這里幾乎沒(méi)有優(yōu)勢,Google 可以準確的回答達芬奇的生日,但它沒(méi)有辦法理解用戶(hù)輸入的名詞和動(dòng)詞,也沒(méi)有辦法因此提高搜索質(zhì)量。
我們在觀(guān)察語(yǔ)意搜索能完美解決的問(wèn)題之前,先讓我們看看最困難的部分。在理解語(yǔ)意之外,有一些計算上的挑戰,有一個(gè)延續了很久的對語(yǔ)意 Web 的誤解是,既然我們可以注解 Web,那我們就能夠解決那些超級復雜的問(wèn)題,這是不對的。我們在計算上有一些本質(zhì)的限制,那些可能有很多解決方法的問(wèn)題未必會(huì )因為我們以 RDF 表現數據就能得到解決。
一個(gè)好消息是,有一些問(wèn)題對語(yǔ)意搜索來(lái)說(shuō)是得心應手的,就是那些我們已經(jīng)通過(guò)關(guān)系數據庫完美解決了的問(wèn)題。我們經(jīng)常忘記了語(yǔ)意技術(shù)是來(lái)幫助我們在整個(gè) Web 世界表現關(guān)系數據的,所以,就不奇怪語(yǔ)意搜索將超越關(guān)系搜索。
當前的語(yǔ)意搜索商
但語(yǔ)意搜索并不是我們問(wèn)問(wèn)題,因為 Web 事實(shí)上是一堆非結構化 HTML 頁(yè),語(yǔ)意搜索與這些 HTML 頁(yè)背后的數據有關(guān)。這其中最極端的例子是
Freebase 。 Freebase 可以通過(guò)文字搜索進(jìn)行訪(fǎng)問(wèn),但更主要通過(guò) MQL (Metaweb 查詢(xún)語(yǔ)言)訪(fǎng)問(wèn)。使用 MQL,你可以從 Freebase 查詢(xún)任何東西。
Powerset 從某個(gè)方面來(lái)說(shuō),僅僅是關(guān)系數據庫,它基于特定的結構信息。
Google 則全然是統計意義上的頻度問(wèn)題,幾乎沒(méi)有語(yǔ)意思在內。Yahoo! 最近發(fā)布的
SearchMonkey 是對二者有趣的結合,它并不在結果集中加入任何東西,而是使用語(yǔ)意注解,來(lái)表現更豐富,更交互,更有用的用戶(hù)界面。
Hakia 和
Powerset 是在這些技術(shù)上最努力的公司,他們企圖建立一個(gè)類(lèi)似 Freebase 的結構,然后使用自然語(yǔ)言進(jìn)行查詢(xún)。不同的是,Hakia 面向整個(gè) Web,而 Powerset 只面向
Wikipedia。
Hakia, Powerset 和 Freebase 到底有多大區別
現在有一個(gè)問(wèn)題,上面提到這幾種技術(shù)中哪些是不同的,哪些從本質(zhì)上是一樣的?我們先從簡(jiǎn)單的入手,從搜索的核心技術(shù)來(lái)說(shuō),Yahoo 的 SearchMonkey 和 Google 以及其它搜索沒(méi)有什么不同,不同的是展示層。SearchMonkey 通過(guò)將搜索結果以最好的方式展示給用戶(hù),而為用戶(hù)創(chuàng )建一個(gè)更好的使用體驗。
但 Hakia, Powerset 和 Freebase 的情形卻復雜的多,從表面看,這些技術(shù)都不一樣,Hakia 讓你搜索整個(gè)網(wǎng)絡(luò ),Powerset 只限于 Wikipedia (和 Freebase),Freebase 自己擁有兩種界面,搜索框式界面和查詢(xún)語(yǔ)言式界面,這就是問(wèn)題所在,自然語(yǔ)言界面與其背后的數據展示沒(méi)有任何關(guān)系。
事實(shí)上,所有這些語(yǔ)意搜索技術(shù)允許用戶(hù)輸入復雜的問(wèn)題,然后將這些查詢(xún)問(wèn)題進(jìn)行分析并向數據庫進(jìn)行查詢(xún)。本質(zhì)上,Hakia, Powerset 和 Freebase 是數據庫,他們都是一種自然語(yǔ)言處理引擎,將用戶(hù)的問(wèn)題翻譯成對數據庫的查詢(xún)。
要徹底看清這些技術(shù)的內部,不妨想一想 Freebase 和它的查詢(xún)語(yǔ)言 MQL。和自然語(yǔ)言不同,MQL 允許各種查詢(xún)結構,MQL 不會(huì )產(chǎn)生歧義,這種類(lèi)似 JSON 的語(yǔ)言允許用戶(hù)構造精確的查詢(xún)語(yǔ)句。我們說(shuō) Powerset 允許自然語(yǔ)言查詢(xún)并不是說(shuō) Powerset 的內部有一個(gè)數據庫,當然,它的內部有一個(gè)和 Freebase 搜索框后面的數據庫類(lèi)似的東西,真正不同的是他們搜集集合數據的方式以及用戶(hù)的體驗。
搜索的未來(lái):用戶(hù)界面是一切也許語(yǔ)意搜索最大的革命是用戶(hù)界面,首先,Powerset 正確地認識到語(yǔ)意是用戶(hù)界面最上面的一層,用戶(hù)在 Powerset 搜索的時(shí)候,一個(gè)可以進(jìn)行上下文關(guān)聯(lián)的工具會(huì )意識到結果的語(yǔ)意,并提供一些有用的信息來(lái)幫助用戶(hù)完成搜索體驗。
但我認為 Powerset 犯的最大錯誤也是用戶(hù)界面,那個(gè)和傳統搜索一模一樣的搜索框應當去掉,提供一個(gè)簡(jiǎn)化的搜索界面會(huì )傷害 Powerset,Hakia 以及 Freebase。
聯(lián)想到 Powerset ,它使用了一種總體上更好的方式同網(wǎng)絡(luò )中最好的資源 Wikipedia 進(jìn)行交互,但批評著(zhù)是怎么說(shuō)的,Powerset 是 Google 殺手嗎,不是。
但,如果 Powerset 縮小自己的搜索范圍會(huì )呢?如果 Powerset 用另一種界面替換那個(gè)搜索框,或者告訴用戶(hù)在 Powerset 找那些 Google 無(wú)法簡(jiǎn)單找到的東西會(huì )怎么樣呢?這些新公司為什么要改進(jìn)那些已經(jīng)存在了10年的技術(shù),而不是為那些 Google 解決不了的問(wèn)題提供方案?
結論語(yǔ)意搜索是一種過(guò)分抬高了人們的期望值的技術(shù),我們都誤以為這些技術(shù)是 Google 的替代品,會(huì )帶來(lái)更好的搜索結果。事實(shí)上不是,這些技術(shù)的出現,是為了解決目前 Google 等傳統搜索引擎所無(wú)法解決的問(wèn)題,那些復雜的,牽扯到推理的,將整個(gè) Web 當作數據庫進(jìn)行查詢(xún)的問(wèn)題。