-
只說(shuō) sayonly.com english |
other 創(chuàng )業(yè)生存手冊 概要:
本文試圖通過(guò)一系列線(xiàn)索揭示Google Base與Semantic Web(語(yǔ)義網(wǎng),以下簡(jiǎn)稱(chēng)SW)的關(guān)系,以此窺探Google在互聯(lián)網(wǎng)服務(wù)的戰略布局。當然本文屬于
創(chuàng )業(yè)生存手冊系列,在系列的開(kāi)篇中只說(shuō)提到這個(gè)系列會(huì )提到web2.0,所以本文也會(huì )比較SW在web2.0的關(guān)系。本文引用的SW的資料大多數為英文資料,有識之士可以翻譯并推介這部分材料,將是對于國內互聯(lián)網(wǎng)整體水平的大的提升。
Dedicated to another SW - Simon Willison。1,Google BaseGoogle Base(應該是base.google.com,暫時(shí)無(wú)法訪(fǎng)問(wèn))還沒(méi)有發(fā)布,謠言已經(jīng)滿(mǎn)天飛了,從webleon的
給出的鏈接看到,google的產(chǎn)品拓展經(jīng)理Tom Oliveri列出了
一份清單,給出了
正式的解釋(只說(shuō)譯):
你也許已經(jīng)看到了今天很多關(guān)于我們正在測試的一款新產(chǎn)品的報道,猜測了我們的計劃。在這里我告訴你們我們真正在作的是什么。我們在測試一種內容擁有者提交他們的內容到google的新方式,通過(guò)這種方式,有希望補充我們已經(jīng)使用的方式如google機器人以及SiteMaps(站點(diǎn)地圖)。我們認為這是一款讓人激動(dòng)的產(chǎn)品,有新消息我們會(huì )立即通知你們。
這則簡(jiǎn)單的聲明已經(jīng)沒(méi)有辦法滿(mǎn)足很多人的好奇心,試用過(guò)的人給出
截圖,更多的人在猜測google究竟在干什么。
webleon文中說(shuō),應該是一個(gè)由用戶(hù)自行創(chuàng )建網(wǎng)絡(luò )數據庫的服務(wù)。這些數據可以是任何的內容,從可以看到的數據內容看到,有
-聚會(huì )服務(wù)的描述;
-網(wǎng)站上關(guān)于時(shí)事的文章;
-二手車(chē)出售列表;
-蛋白質(zhì)結構的數據庫。
這些內容,真的只是網(wǎng)絡(luò )數據庫、用戶(hù)隱私?或者是google頭腦發(fā)熱的一次作惡(evil)?
從google的對這個(gè)項目的聲明和更多的猜測看,恐怕不這么簡(jiǎn)單。種種跡象表明,這是google在作一次SW的試水,是google開(kāi)始向SW服務(wù)靠攏的一個(gè)試探。為什么只說(shuō)能這么肯定,SW究竟是個(gè)什么東西,它怎么有那么大的魔力,讓google這么諱莫如深?這話(huà)得從頭說(shuō)起。
當然,也只有g(shù)oogle,在產(chǎn)品的測試期間就能掀起這么強烈的關(guān)注。
2,Google與Semantic Web的親密接觸幾年前,Simon Willison發(fā)了一個(gè)
簡(jiǎn)短的blog文章,對于google在作一些關(guān)于SW的研究而贊嘆,他看到了一份以未來(lái)筆調描述google如何戰勝Amazon和Ebay這些競爭對手的
恢宏論文,作者是 Paul Ford。Simon Willison是一位很geek的程序員,我一直有看他的blog,雖然未必能完全看懂,他現在去了yahoo,有趣的是,它的名字的簡(jiǎn)寫(xiě)也是SW,把本篇文章獻給他(其實(shí)應該是本章,但那樣說(shuō)也太失禮了)。
Paul Ford那篇被多次提到(還有
Stuart)的文章講的是,2009年,Google統治了互聯(lián)網(wǎng)這個(gè)媒介,回顧如何擊敗Amazon和Ebay的歷程,其實(shí)是一篇比較通俗的整體講述什么是SW的文章,讀起來(lái)頗為有趣。同樣有趣的還有那個(gè)
EPIC,當然就與SW無(wú)關(guān)了。
其實(shí)美國東岸的幾所學(xué)校對于SW的應用研究都很長(cháng)時(shí)間了,最有成果的應該是
piggy bank。
2003年,google買(mǎi)了一家小公司,叫做Applied Semantic,應該用來(lái)做Google adsense的。因此有人寫(xiě)了一篇題為
google在SW投資的文章,可以參看。
google的搜索質(zhì)量總監Peter Norvig今年初有一篇文章,題目叫做
SW可以做什么,不能做什么是只說(shuō)讀到關(guān)于SW應用最透徹的文章之一,這系列文章很長(cháng),從各個(gè)方面探討了SW應用和概念。Peter Norvig是個(gè)非常有眼光的人,我以前也是一直看
他的網(wǎng)站,雖然至今他還沒(méi)有blog,但是終于有RSS輸出了。他有一篇傳世文章,叫做
十年學(xué)編程后來(lái)被很多人翻譯過(guò),其實(shí)這是他在NASA研究中心時(shí)候寫(xiě)的,呵呵,時(shí)間過(guò)去得真快。
如今的Google Base的出現,必然有Norvig的眼光和推動(dòng)力來(lái)成就這個(gè)網(wǎng)站。其實(shí)歐洲人比美國人更急于想實(shí)現SW,甚至已經(jīng)有了semantic weblog,例如qlogger.com,但是沒(méi)有人象norvig一樣技術(shù)滲透,而且身后是google這樣的公司。
背靠著(zhù)索引著(zhù)最大互聯(lián)網(wǎng)網(wǎng)頁(yè)數量的google,在將網(wǎng)絡(luò )爬蟲(chóng)使用到了極致之后,極有可能是第一個(gè)可能局部實(shí)現SW的商業(yè)機構,無(wú)論從技術(shù)還是從市場(chǎng)上看。當然SW是一種理想,至少google base讓我們初嘗到這種口味。
讓我們看一看,什么是SW,為什么Google要實(shí)現SW?
3,什么是Semantic Web?什么是SW,就得先談?wù)勊陌l(fā)明人Tim Berners-Lee,同時(shí)也是WWW的發(fā)明者。
Tim Berners-Lee在近幾年的報道提到互聯(lián)網(wǎng)發(fā)展時(shí)(一般放到Future一頁(yè)里面)無(wú)一例外的提到了SW,大約是發(fā)明WWW之后再發(fā)明不了其他玩意兒了,或者是其他玩意兒都沒(méi)勁了。當然也還有其他的,
5月的報告指出,目前網(wǎng)絡(luò )在手機上面臨的困境跟
96年互聯(lián)網(wǎng)在pc上面臨的困境一樣。當然,SW是對于整個(gè)互聯(lián)網(wǎng)說(shuō)的,跟接入的設備沒(méi)有什么關(guān)系。專(zhuān)門(mén)關(guān)于SW的報告是題為
SW在這里,列出了Nokia、HP、IBM等廠(chǎng)商的SW的進(jìn)展,也可以在
這里看到
那次會(huì )議中談?wù)摰募毠?,不過(guò)那里看不到那個(gè)SW在這里報道中的那個(gè)
SW的形象圖,畫(huà)的是各種材料,包括磚頭和木材,組合成的一頭大象。形象地說(shuō)明了在SW下,是各種可以識別的材料,組成了整個(gè)世界。many things to many people。只說(shuō)喜歡他們另外一個(gè)宣傳口號:Web Evolution causing a quiet revolution
SW的核心意義在于網(wǎng)絡(luò )內容是由多種可以識別的數據組成的,在早期的互聯(lián)網(wǎng),93年左右,互聯(lián)網(wǎng)停留在文件形態(tài),組成的是一個(gè)個(gè)文件,傳送都是使用ftp 等工具;94年左右互聯(lián)網(wǎng)處于文本的形式,出現了html和URI(唯一地址),可以通過(guò)這個(gè)地址進(jìn)行訪(fǎng)問(wèn);而不斷演化,今后將在以XML等可以標記的數據結構中,而網(wǎng)頁(yè)只是展示這些數據的一種工具,你可以通過(guò)任何其他的形式進(jìn)行展示,甚至機器也可以識別?;ヂ?lián)網(wǎng)不再是由一篇篇的文檔和頁(yè)面組成,而是由一部分一部分細碎的數據構成。
這樣說(shuō)比較玄妙了,其實(shí)還可以解釋得更簡(jiǎn)單一點(diǎn)。SW就是把原來(lái)的互聯(lián)網(wǎng)內容,切成碎片,文章標題歸文章標題,發(fā)布時(shí)間放到發(fā)布時(shí)間,文章概要歸文章概要,分別存放,每一個(gè)部分都是機器可以識別的(當然實(shí)際可能更復雜一點(diǎn))。在Paul Ford的2002年如何戰勝Amazon和Ebay
文中提到,它其實(shí)就是描述這些內容的另一種方式,這種方式下機器可以識別,具體方式雖然不是十分清晰,但是邏輯上,其實(shí)跟在你在學(xué)校里面學(xué)習的方式?jīng)]有什么兩樣:
-如果A是B的朋友,那么B就是A的朋友;
-張三有一個(gè)朋友叫李四
-因此,李四將有一個(gè)朋友叫張三
-李四有一個(gè)朋友叫張三
-那么,張三會(huì )有一個(gè)朋友叫李四
就是這么簡(jiǎn)單。
在互聯(lián)網(wǎng)上,我們把內容放在一些定義好的XML標簽指定的文件里面。然后會(huì )有程序自動(dòng)收集這些內容,通過(guò)這些簡(jiǎn)單的規則,進(jìn)行分析。所有區別于現在操作的就是,在搜索的時(shí)候,服務(wù)器的程序會(huì )綜合更多的因素,進(jìn)行更復雜的判斷,理解你的請求的真實(shí)意義,然后給你最準確的內容。
例如,你輸入只說(shuō),他們準確的判斷出,你要找的是我這個(gè)人,而不是錯認為,你又說(shuō)了一句什么話(huà),或者給你一個(gè)許如蕓的“只說(shuō)給你聽(tīng)”的歌曲應付一下你。
4,Google怎么實(shí)現Semantic Web?Google究竟怎么實(shí)現SW,在Peter Norvig的文章
SW可以做什么,不能做什么已經(jīng)可以看出些端倪,Norvig在今年一月份(或者更早)都已經(jīng)想好了應該怎么啟動(dòng)了,或者說(shuō),應該怎么逐步打造SW。他談到了四個(gè)問(wèn)題:
1)先有雞還是先有蛋的問(wèn)題,
這個(gè)問(wèn)題涉及到如何建立所需的信息,因為要必須有有組織的信息才能打造相應的工具,而如果沒(méi)有相應的工具,怎么把信息放到組織里面去呢?
這個(gè)問(wèn)題只說(shuō)要展開(kāi)說(shuō)一下,其實(shí)google并不是要建立一個(gè)Tim Berners-Lee等人理想中的SW,因為其實(shí)google其實(shí)只需要索引SW中的信息即可,因為如果SW建立起來(lái),索引是一件簡(jiǎn)單的事情,甚至產(chǎn)品實(shí)現上面比google現在的搜索引擎更簡(jiǎn)單,技術(shù)要求更低。然而,問(wèn)題就出來(lái)了,是先建立一個(gè)SW,然后來(lái)索引呢,還是先索引整個(gè)互聯(lián)網(wǎng),然后再生成把它放到有組織的SW里面去呢,這就是為什么google打造SW時(shí)遇到了先有雞還是先有蛋的問(wèn)題。
那么只說(shuō)的猜測是,目前Google base的作法是,目前互聯(lián)網(wǎng)上的信息是很難組織,那么讓用戶(hù)提交有組織的信息到google,就能形成局部的SW。而這個(gè)局部的SW,就可以實(shí)現聚會(huì )服務(wù)的描述、網(wǎng)站上關(guān)于時(shí)事的文章、二手車(chē)出售列表等等信息的精確定位,機器也就能夠理解這個(gè)范圍內的信息。
在Norvig后面的描述中可以證實(shí)只說(shuō)的說(shuō)法:
在正常情況下,定義語(yǔ)義的標準格式(schemas)似乎更好,但是,問(wèn)題出在把什么內容放進(jìn)這些標準格式,還有很多工作要做。
因為還有以下提到的幾個(gè)問(wèn)題,這些問(wèn)題在把內容放進(jìn)這些標準格式中的時(shí)候,這些問(wèn)題同樣會(huì )出現,而且,google不能把握住這些環(huán)節,或者從整個(gè)互聯(lián)網(wǎng)角度來(lái)講,把握這些環(huán)節的公司服務(wù)或者工具太分散,無(wú)法形成標準,也無(wú)法保證安全和質(zhì)量。Norvig舉了一個(gè)google news例子,在前一個(gè)晚上google news一共索引了658個(gè)不同來(lái)源的新聞,google可以根據這些新聞頁(yè)進(jìn)行一個(gè)cluster運算,算出其中重要度最高的是Blair的新聞,然而,如果google依據這些寫(xiě)入新聞的新聞源來(lái)做這件事情,則幾乎是不可能的。
不過(guò)通過(guò)他們的頁(yè)面上的新聞來(lái)索引計算出來(lái)的質(zhì)量畢竟不高,所以google現在想到另外一個(gè)辦法,也就是,讓用戶(hù)通過(guò)google base的接口提交到google,提交的數據是定義好的一些數據標準,google來(lái)控制這個(gè)提交過(guò)程并更準確的判斷提交的質(zhì)量、spam等等情況,并且可以將各種數據綜合起來(lái)進(jìn)行分析。
2)競爭問(wèn)題,你有不同的和相似方法和工具可以選擇。
這樣子就無(wú)法跟蹤用戶(hù)行為的全貌。
3)Cyc問(wèn)題,
Cyc是一個(gè)專(zhuān)業(yè)術(shù)語(yǔ),講的是通過(guò)廣泛的本題作常識推理。這樣說(shuō)也許不太明白,舉個(gè)例子就很容易了,例如“周杰倫”,這是一個(gè)人名,如果以錯輸為“周杰論”,這時(shí)機器就識別不出來(lái)了,但是如果擁有了一個(gè)很大的詞庫,那么這個(gè)通過(guò)識別出“周杰論”可能就是“周杰倫”,那么這就是一個(gè)Cyc問(wèn)題。如何在SW 中判斷這些Cyc以識別出常識的判斷,這是建立真正意義的SW必須解決的問(wèn)題。
4)Spam,
垃圾,這個(gè)不用多說(shuō)了。但是注意到,由于SW是精確匹配,并且要求根據意圖來(lái)適配,所以對于spam要求更高。
順便提及,
Splog不就是Semantic Spam嘛。
5,Semantic Web與Web2.0web2.0是tim o‘reilly的概念,開(kāi)始這個(gè)概念定義很模糊。應該是互聯(lián)網(wǎng)應用的發(fā)展模式,催生了新一代的應用以及人們對于這些應用的理解方式和使用方法(
這里談到過(guò)這幾個(gè)概念的分別)。國外也有人撰文
web2.0會(huì )殺掉SW嗎?,也有稱(chēng)
Semantic Web 2.0。有很有趣的討論。前一篇文章說(shuō)得有點(diǎn)道理,web2.0是給少數人用的,SW會(huì )提供Accessiblity。Stefan Decker在這里補充了一下,Web2.0重“應用”,SW則是標準。這跟只說(shuō)
那邊談到web2.0是應用發(fā)展模式不謀而合。其實(shí)web2.0用來(lái)說(shuō)明一種公司特性也未嘗不可,不過(guò)你大聲的說(shuō)google是web2.0的公司,而M$是1.0的公司,確實(shí)有點(diǎn)怪。
當然SW也作了很多應用,例如美國東岸的幾所學(xué)校,例如歐洲連Semantic weblog也搞出來(lái)了,deri也做了很多應用了。
另外,
gnowsis也是另外一個(gè)狂想,只是我還沒(méi)看懂它的結構圖,為什么會(huì )有一個(gè)semantic web server在里面。
6,結語(yǔ)還有幾點(diǎn):
本文并沒(méi)有分析google為什么要做SW,只說(shuō)想這已經(jīng)用不著(zhù)只說(shuō)在這里分析。SW對于各種應用的好處是顯然的。
Google對于SW的探索看似給予搜索引擎的,Norvig那篇文章下面也有人回復說(shuō),似乎google只是在搜索的角度看待SW,其實(shí)不然,因為互聯(lián)網(wǎng)是一個(gè)請求應答系統,是我們人為將互聯(lián)網(wǎng)標準定義成一個(gè)url指向一個(gè)網(wǎng)頁(yè)的,這是一個(gè)陳舊的標準,或者對于更高層次的信息獲取來(lái)講,并非是必要的。關(guān)于信息適配的探索,其實(shí)google比任何其他人(諂媚呀)都高。
有人說(shuō),Google還是從信息組織的角度來(lái)看待整個(gè)互聯(lián)網(wǎng)(google的信條就是組織信息),或者,它只是互聯(lián)網(wǎng)的一個(gè)信息組織者,以后也將成為SW 的信息組織者。其實(shí),從根本來(lái)說(shuō),互聯(lián)網(wǎng)整個(gè)媒介都是信息,除了信息沒(méi)有其他任何東西,當然你可以持有另外一個(gè)觀(guān)點(diǎn)互聯(lián)網(wǎng)應用才是主導,這到了最深處都是殊途同歸。
剛寫(xiě)完,發(fā)現keso的
文已經(jīng)出來(lái)了:
互聯(lián)網(wǎng)提供了很多破壞規則的機會(huì )。門(mén)戶(hù)新聞和搜索引擎新聞已經(jīng)破壞了傳統媒體的規則,分類(lèi)網(wǎng)站正在破壞一些電子商務(wù)網(wǎng)站和招聘網(wǎng)站的規則。即將露面的 http://base.google.com/服務(wù),很可能是一個(gè)更大的破壞者,它有可能籠絡(luò )更多的個(gè)人內容提供者,進(jìn)而改變互聯(lián)網(wǎng)長(cháng)期以來(lái)內容的組織方式。
其實(shí)規則很簡(jiǎn)單,就是在得到最小的spam的情況下,獲得最有組織并且方便組織的信息,google實(shí)現的局部SW當然有控制,然而,SW的目標,不是web2.0那樣的應用,而是Accessibility呀。 這場(chǎng)革命如此quiet,甚至談不上“規則破壞”。
(指Web Evolution causing a quiet revolution的quiet)
本文引用的大量連接都是英文鏈接,由于時(shí)間關(guān)系,不能將其中摘錄翻譯,深感抱歉。SW的很多文章并不完全是很技術(shù)化的話(huà)題,這些材料對于國內互聯(lián)網(wǎng)水平的增長(cháng)是十分有益的。
再次強調一下本文的觀(guān)點(diǎn):很顯然,google base是google在SW的試驗和測試。而SW就是google的本壘(home base)。