精品国产亚洲aV成人_ ]語(yǔ)意搜索的神話(huà)與現實(shí)

感謝35公里的投遞
新聞來(lái)源:readwriteweb.com
近年來(lái)，人們一直談?wù)撜Z(yǔ)意搜索，任何能夠同 Google 抗衡的技術(shù)都倍受關(guān)注，尤其那些期待已久的語(yǔ)意搜索技術(shù)。但不管人們在這方面獲得了何種進(jìn)步，我們仍然對結果失望，在與 Google 做的并列搜索結果對比中，我們發(fā)現二者的差別并不大。

例如，當我們問(wèn)，法國的首都是哪里？兩種搜索技術(shù)都返回正確答案，巴黎。同樣，我們在 Google 中搜索的時(shí)候，不管使用自然語(yǔ)言還是縮寫(xiě)式搜索語(yǔ)言，返回的結果都差不多。我們都知道語(yǔ)意搜索技術(shù)很強大，但強大在哪里？本文中我們會(huì )看到問(wèn)題出在我們的搜索提問(wèn)方式不對。

自然語(yǔ)言搜索引擎為我們提供了一個(gè)和 Google 一樣的搜索框，我們在這個(gè)搜索框中輸入搜索問(wèn)題的時(shí)候，不自覺(jué)地使用了那些最原始的提問(wèn)方式，如，法國的首都是哪里，我們很少問(wèn)，同時(shí)在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪個(gè)演員？，或者，那兩個(gè)接收國外政治獻金的美國議員是誰(shuí)？我們輸入的問(wèn)題太簡(jiǎn)單，這無(wú)法體現語(yǔ)意搜索的強大，我們下面會(huì )談到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技術(shù)在語(yǔ)意技術(shù)上的對比。

我們要解決的問(wèn)題

第一個(gè)困惑來(lái)自這樣的事實(shí)，就是，語(yǔ)意搜索已經(jīng)被推向可以解決一切問(wèn)題的位置，從以 Google 為代表的現代搜索問(wèn)題，到一些計算機根本無(wú)法解決的問(wèn)題，更嚴重的是，目前語(yǔ)意搜索只能在一個(gè)狹小的范圍內做得比較好，就是那些牽扯到對復雜數據進(jìn)行推理的查詢(xún)。

象上圖中顯示的那樣，基礎查詢(xún)，Google 很容易處理，不幸的是，自然語(yǔ)言在這里幾乎沒(méi)有優(yōu)勢，Google 可以準確的回答達芬奇的生日，但它沒(méi)有辦法理解用戶(hù)輸入的名詞和動(dòng)詞，也沒(méi)有辦法因此提高搜索質(zhì)量。

我們在觀(guān)察語(yǔ)意搜索能完美解決的問(wèn)題之前，先讓我們看看最困難的部分。在理解語(yǔ)意之外，有一些計算上的挑戰，有一個(gè)延續了很久的對語(yǔ)意 Web 的誤解是，既然我們可以注解 Web，那我們就能夠解決那些超級復雜的問(wèn)題，這是不對的。我們在計算上有一些本質(zhì)的限制，那些可能有很多解決方法的問(wèn)題未必會(huì )因為我們以 RDF 表現數據就能得到解決。

一個(gè)好消息是，有一些問(wèn)題對語(yǔ)意搜索來(lái)說(shuō)是得心應手的，就是那些我們已經(jīng)通過(guò)關(guān)系數據庫完美解決了的問(wèn)題。我們經(jīng)常忘記了語(yǔ)意技術(shù)是來(lái)幫助我們在整個(gè) Web 世界表現關(guān)系數據的，所以，就不奇怪語(yǔ)意搜索將超越關(guān)系搜索。
當前的語(yǔ)意搜索商
但語(yǔ)意搜索并不是我們問(wèn)問(wèn)題，因為 Web 事實(shí)上是一堆非結構化 HTML 頁(yè)，語(yǔ)意搜索與這些 HTML 頁(yè)背后的數據有關(guān)。這其中最極端的例子是 Freebase 。 Freebase 可以通過(guò)文字搜索進(jìn)行訪(fǎng)問(wèn)，但更主要通過(guò) MQL （Metaweb 查詢(xún)語(yǔ)言）訪(fǎng)問(wèn)。使用 MQL，你可以從 Freebase 查詢(xún)任何東西。

Powerset 從某個(gè)方面來(lái)說(shuō)，僅僅是關(guān)系數據庫，它基于特定的結構信息。Google 則全然是統計意義上的頻度問(wèn)題，幾乎沒(méi)有語(yǔ)意思在內。Yahoo! 最近發(fā)布的 SearchMonkey 是對二者有趣的結合，它并不在結果集中加入任何東西，而是使用語(yǔ)意注解，來(lái)表現更豐富，更交互，更有用的用戶(hù)界面。

Hakia 和 Powerset 是在這些技術(shù)上最努力的公司，他們企圖建立一個(gè)類(lèi)似 Freebase 的結構，然后使用自然語(yǔ)言進(jìn)行查詢(xún)。不同的是，Hakia 面向整個(gè) Web，而 Powerset 只面向 Wikipedia。
Hakia, Powerset 和 Freebase 到底有多大區別
現在有一個(gè)問(wèn)題，上面提到這幾種技術(shù)中哪些是不同的，哪些從本質(zhì)上是一樣的？我們先從簡(jiǎn)單的入手，從搜索的核心技術(shù)來(lái)說(shuō)，Yahoo 的 SearchMonkey 和 Google 以及其它搜索沒(méi)有什么不同，不同的是展示層。SearchMonkey 通過(guò)將搜索結果以最好的方式展示給用戶(hù)，而為用戶(hù)創(chuàng )建一個(gè)更好的使用體驗。

但 Hakia, Powerset 和 Freebase 的情形卻復雜的多，從表面看，這些技術(shù)都不一樣，Hakia 讓你搜索整個(gè)網(wǎng)絡(luò )，Powerset 只限于 Wikipedia （和 Freebase），Freebase 自己擁有兩種界面，搜索框式界面和查詢(xún)語(yǔ)言式界面，這就是問(wèn)題所在，自然語(yǔ)言界面與其背后的數據展示沒(méi)有任何關(guān)系。

事實(shí)上，所有這些語(yǔ)意搜索技術(shù)允許用戶(hù)輸入復雜的問(wèn)題，然后將這些查詢(xún)問(wèn)題進(jìn)行分析并向數據庫進(jìn)行查詢(xún)。本質(zhì)上，Hakia, Powerset 和 Freebase 是數據庫，他們都是一種自然語(yǔ)言處理引擎，將用戶(hù)的問(wèn)題翻譯成對數據庫的查詢(xún)。

要徹底看清這些技術(shù)的內部，不妨想一想 Freebase 和它的查詢(xún)語(yǔ)言 MQL。和自然語(yǔ)言不同，MQL 允許各種查詢(xún)結構，MQL 不會(huì )產(chǎn)生歧義，這種類(lèi)似 JSON 的語(yǔ)言允許用戶(hù)構造精確的查詢(xún)語(yǔ)句。我們說(shuō) Powerset 允許自然語(yǔ)言查詢(xún)并不是說(shuō) Powerset 的內部有一個(gè)數據庫，當然，它的內部有一個(gè)和 Freebase 搜索框后面的數據庫類(lèi)似的東西，真正不同的是他們搜集集合數據的方式以及用戶(hù)的體驗。

搜索的未來(lái)：用戶(hù)界面是一切

也許語(yǔ)意搜索最大的革命是用戶(hù)界面，首先，Powerset 正確地認識到語(yǔ)意是用戶(hù)界面最上面的一層，用戶(hù)在 Powerset 搜索的時(shí)候，一個(gè)可以進(jìn)行上下文關(guān)聯(lián)的工具會(huì )意識到結果的語(yǔ)意，并提供一些有用的信息來(lái)幫助用戶(hù)完成搜索體驗。

但我認為 Powerset 犯的最大錯誤也是用戶(hù)界面，那個(gè)和傳統搜索一模一樣的搜索框應當去掉，提供一個(gè)簡(jiǎn)化的搜索界面會(huì )傷害 Powerset，Hakia 以及 Freebase。

聯(lián)想到 Powerset ，它使用了一種總體上更好的方式同網(wǎng)絡(luò )中最好的資源 Wikipedia 進(jìn)行交互，但批評著(zhù)是怎么說(shuō)的，Powerset 是 Google 殺手嗎，不是。

但，如果 Powerset 縮小自己的搜索范圍會(huì )呢？如果 Powerset 用另一種界面替換那個(gè)搜索框，或者告訴用戶(hù)在 Powerset 找那些 Google 無(wú)法簡(jiǎn)單找到的東西會(huì )怎么樣呢？這些新公司為什么要改進(jìn)那些已經(jīng)存在了10年的技術(shù)，而不是為那些 Google 解決不了的問(wèn)題提供方案？

結論

語(yǔ)意搜索是一種過(guò)分抬高了人們的期望值的技術(shù)，我們都誤以為這些技術(shù)是 Google 的替代品，會(huì )帶來(lái)更好的搜索結果。事實(shí)上不是，這些技術(shù)的出現，是為了解決目前 Google 等傳統搜索引擎所無(wú)法解決的問(wèn)題，那些復雜的，牽扯到推理的，將整個(gè) Web 當作數據庫進(jìn)行查詢(xún)的問(wèn)題。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久