


Powerset首頁(yè)
Powerset基于自然語(yǔ)言,某些搜索性能超過(guò)Google,為微軟提供了一次超越Google的機會(huì )
【《財經(jīng)網(wǎng)》專(zhuān)稿/記者 何華峰】微軟收購從事自然語(yǔ)言搜索引擎公司Powerset的消息,既讓人看到了微軟發(fā)展搜索引擎的決心,也令自然語(yǔ)言搜索迅速成為行業(yè)的熱點(diǎn)。
6月26日,美國知名IT博客VentureBeat首次披露,微軟將斥資1億美元,收購美國舊金山的搜索引擎公司Powerset。7月1日,Powerset在博客上發(fā)布聲明,證實(shí)微軟已與其簽約。
微軟剛剛放棄了對雅虎的收購,公司首席執行官斯蒂夫·鮑爾默(Steve Balmer)同時(shí)表示,要堅定不移地獨立投資互聯(lián)網(wǎng),縮小與Google在搜索引擎方面的差距。收購Powerset進(jìn)一步佐證了這一思路。
同時(shí),Powerset的搜索是基于自然語(yǔ)言,某些搜索效果好于Google,這一消息也讓業(yè)內不禁聯(lián)想:這會(huì )不會(huì )是微軟超越Google搜索引擎的一次絕佳機會(huì )?
Powerset與自然語(yǔ)言
Powerset公司位于舊金山。2005年9月,Powerset的首席執行官巴尼·佩爾(Barney Pell)找到了PARC實(shí)驗室的羅恩·卡普蘭(Ron Kaplan),后者領(lǐng)導著(zhù)一個(gè)負責自然語(yǔ)言搜索的團隊。佩爾說(shuō)服卡普蘭做一款自然語(yǔ)言搜索引擎。
PARC實(shí)驗室(Palo Alto ResearchCenter)隸屬于施樂(lè )公司(Xerox),是硅谷地區鼎鼎有名的高科技產(chǎn)品研究機構。20世紀80年代初,蘋(píng)果公司創(chuàng )始人斯蒂夫·喬布斯(SteveJobs)正是從這個(gè)實(shí)驗室得到了鼠標技術(shù),并將其用在自己研發(fā)的蘋(píng)果電腦上。
2007年2月,Powerset從PARC實(shí)驗室獲得了自然語(yǔ)言搜索引擎技術(shù)的排他性授權。
從理念上說(shuō),自然語(yǔ)言搜索是更先進(jìn)的搜索技術(shù),搜索引擎會(huì )先理解文章的意思,在此基礎上進(jìn)行搜索。與Google相比最大的區別是,Google的搜索以關(guān)鍵詞為基礎,根據關(guān)鍵詞把搜索的頁(yè)面進(jìn)行排序,而并非以理解文章意思為先。
理論上,自然語(yǔ)言搜索更為先進(jìn),但這項技術(shù)的概念出現幾十年,一直沒(méi)能做到可應用水平。Google也曾表示要推出自然語(yǔ)言搜索,卻始終未果。而PARC實(shí)驗室的技術(shù)被認為達到了應用的水平。
這項技術(shù)很被看好,2006年,就在Powerset與PARC實(shí)驗室還在談判的過(guò)程中,已經(jīng)有兩個(gè)風(fēng)險投資商FoundationCapital和the FoundersFund表示看好,計劃以相當高的價(jià)格進(jìn)行投資。最終,兩家風(fēng)險投資商以1250萬(wàn)美元的價(jià)格,獲得了Powerset不到三分之一的股權。
2007年初,Powerset終于完成了與PARC實(shí)驗室的談判,前者獲得排他性授權,后者除收取授權費外,還獲得前者的部分股權。
2007年9月,Powerset的搜索引擎上線(xiàn)。比較Powerset與Google,在某些地方,前者的功能更優(yōu)。比如,搜索“誰(shuí)收購了IBM”,Google只識別“收購”與“IBM”兩個(gè)關(guān)鍵詞,顯示結果,會(huì )是大量IBM收購的公司。Powerset則能理解,要查找的是收購IBM的公司,給出的結果主要是“聯(lián)想”和“AT&T”。
如果輸入更復雜的問(wèn)題,如“IBM在1996年收購了誰(shuí)?”,Google便會(huì )束手無(wú)策,而Powerset的搜索結果則好很多。
Powerset還有較強的學(xué)習能力,比如,掃描網(wǎng)頁(yè),它會(huì )發(fā)現希拉里·克林頓與“自由”“民主”“領(lǐng)導人”相關(guān),當你搜索“自由民主黨人對醫療政策的態(tài)度?”,就會(huì )搜到希拉里和其他自由民主黨人關(guān)于這方面的言論。
微軟的機會(huì )
目前,Powerset的搜索范圍還只限于維基百科,未來(lái)會(huì )逐漸擴大范圍。運用自然語(yǔ)言搜索技術(shù),必須把網(wǎng)頁(yè)掃描及標識一遍。只限于做維基百科的搜索,是又經(jīng)濟又實(shí)惠的做法。
如果有一天,Powerset真的想和Google抗衡,就必須把互聯(lián)網(wǎng)上的所有網(wǎng)頁(yè)掃描并標識一遍。Powerset在聲明中說(shuō),“這很貴,要求的技術(shù)和計算資源,是一個(gè)新企業(yè)無(wú)法承擔的。與微軟合作,是讓技術(shù)應用大規?;淖羁焱緩?。”此話(huà)點(diǎn)明了Powerset鐘意微軟的真正原因。
對Google來(lái)說(shuō),要做自然語(yǔ)言搜索并不容易。Google早已掃描并標識了上百億頁(yè)網(wǎng)頁(yè),但這些都是以關(guān)鍵詞搜索為基礎的。如果采用自然語(yǔ)言搜索技術(shù),將不得不重新掃描和標識這些網(wǎng)頁(yè),且所需的時(shí)間會(huì )比關(guān)鍵詞搜索來(lái)的更長(cháng)。
微軟收購Powerset后,同樣必須掃描及標識所有的頁(yè)面,但其顯然有更強的動(dòng)力。首先,這是一次超越Google的好機會(huì );其次,相對于460億美元的收購雅虎的預算,這點(diǎn)花費變得微不足道。
今年5月,美國互聯(lián)網(wǎng)調查機構尼爾森在線(xiàn)(NielsenOnline)公布的數據顯示,4月份,Google在美國搜索市場(chǎng)市場(chǎng)占有率為62%,與雅虎和微軟的差距進(jìn)一步拉大。雅虎以17.5%的份額位居第二,同比減少3.4%。微軟的MSN/Windows Live Search占9.7%,同比增長(cháng)30%。
微軟還有一個(gè)優(yōu)勢,是它有一些細分領(lǐng)域的搜索引擎,如購物比較搜索Microsoft LiveCashback,旅行搜索Farecast,健康專(zhuān)業(yè)搜索health.live.com,自然語(yǔ)言搜索技術(shù)應用在這些細分領(lǐng)域,目前效果最好。Google則是面向全體用戶(hù)的通用搜索引擎。
被微軟收購后,Powerset還將保持相對獨立的運作。在聲明中,Powerset表示,公司將如常運作——辦公地點(diǎn)不變,公司架構不變,團隊不變。
在未來(lái)幾個(gè)月,Powerset將整合進(jìn)微軟的Live搜索。Powerset說(shuō),“我們將提高搜索,通過(guò)標注網(wǎng)頁(yè)基于意思,而不是關(guān)鍵詞。”
Google終結者?
Powerset在技術(shù)上有一定優(yōu)勢,但要成為Google的終結者則相當困難。
首先,Powerset的技術(shù)優(yōu)勢也許不一定能維持很久。
事實(shí)上,Google研究總監彼得·諾維格(Peter Norvig)在接受VentureBeat采訪(fǎng)時(shí)透露,Google內部已有幾個(gè)做自然語(yǔ)言的小組,且許多人擁有這一專(zhuān)業(yè)的博士學(xué)位,而他本人就是其中之一。
同時(shí),基于自然語(yǔ)言的搜索引擎并非獨Powerset一家。另一家同類(lèi)公司Hakia剛剛籌得2100萬(wàn)美元的風(fēng)險投資,其有意掃描并標識整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)。意大利Expert System公司做的Cogito Focus也是一款基于自然語(yǔ)言的搜索引擎。
這些同類(lèi)者中,不乏“傾心”于Google者。Expert System的首席執行官布洛克·艾克(Brooke Aker)說(shuō),與業(yè)內強者聯(lián)合,是擴展自然語(yǔ)言技術(shù)的最快途徑。
其次,自然語(yǔ)言搜索沒(méi)有提供視頻和圖片的識別技術(shù),這是其很大的技術(shù)弱點(diǎn)。
再次,Google現在已是搜索的代名詞,人們習慣了用Google搜索,而要改變用戶(hù)的這一習慣顯然并不容易。
不過(guò),在Google關(guān)鍵詞搜索獨步天下的今天,Powerset的出現至少顯示了搜索引擎未來(lái)可能有突破的可能。
“五年后,搜索行業(yè)會(huì )有巨大的變化。”Hakia首席執行官力佐·伯肯(Rizzo Berkan)說(shuō)?!?/p>
聯(lián)系客服