那時(shí)的相關(guān)性都是基于詞頻統計的,也就是說(shuō),當用戶(hù)輸入檢索詞時(shí),搜索引擎去找那些檢索詞在文章(網(wǎng)頁(yè))中出現頻率較高的,位置較重要的,再加上一些對檢索詞本身常用程度的加權,最后排出一個(gè)結果來(lái)(檢索結果頁(yè)面) 。早期的搜索引擎結果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網(wǎng)絡(luò )時(shí)代之前學(xué)術(shù)界的研究成果,工業(yè)界的主要精力放在處理大訪(fǎng)問(wèn)量和大數據量上,對相關(guān)性排序沒(méi)有突破。
詞頻統計其實(shí)根本沒(méi)有利用任何跟網(wǎng)絡(luò )有關(guān)的特性,是前網(wǎng)絡(luò )時(shí)代的技術(shù)。然而,網(wǎng)絡(luò )時(shí)代的主要文獻是以網(wǎng)頁(yè)的形式存在的,而幾乎每個(gè)人都可以隨心所欲地在網(wǎng)上發(fā)表各種內容,詞頻相同的兩個(gè)網(wǎng)頁(yè),質(zhì)量相差可以很遠,可是按照搜索引擎的第一定律,對這兩個(gè)網(wǎng)頁(yè)的排序應該是一樣的。為了能夠派在某些檢索結果的前幾位,許多網(wǎng)頁(yè)內容的制作者絞盡腦汁,在其頁(yè)面上堆砌關(guān)鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了 1996年開(kāi)始有了改變。
■ 第二定律 人氣質(zhì)量定律
1996年4月,我到賭城拉斯維加斯開(kāi)一個(gè)有關(guān)信息檢索方面的學(xué)術(shù)會(huì )議,會(huì )議的內容就象拉斯維加斯的天氣一樣,照例比較枯燥乏味。但遠離公司的我,卻難得有一個(gè)靜下心來(lái)認真思考問(wèn)題的機會(huì )。就在聽(tīng)一個(gè)毫不相干的論文演講的時(shí)候,我突然把科學(xué)引文索引的機制跟Web上的超級鏈接聯(lián)系起來(lái)了 - 感謝北大,她在我上大三的時(shí)候就教授了我科學(xué)引文索引的機制,美國恐怕沒(méi)有一所大學(xué)會(huì )在你本科的時(shí)候教這玩藝兒。
科學(xué)引文索引的機制,說(shuō)白了就是誰(shuí)的論文被引用次數多,誰(shuí)就被認為是權威,論文就是好論文。這個(gè)思路移植到網(wǎng)上就是誰(shuí)的網(wǎng)頁(yè)被鏈接次數多,那個(gè)網(wǎng)頁(yè)就被認為是質(zhì)量高,人氣旺。在加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。這就引出了搜索引擎的第二定律:人氣質(zhì)量定律。根據這一定律,搜索結果的相關(guān)性排序,并不完全依賴(lài)于詞頻統計,而是更多地依賴(lài)于超鏈分析。
我意識到這是一個(gè)突破性的東西,回去以后就很快總結了思路,于96年6月申請了這一方面的美國專(zhuān)利。1999年 7月6號,美國專(zhuān)利和商標局批準了專(zhuān)利號為5,920,859的,以我為唯一發(fā)明人的專(zhuān)利。大約在96年底,斯坦福大學(xué)計算機系的兩位研究生也想到了同樣的解決方法,他們后來(lái)創(chuàng )立了一個(gè)叫Google的搜索引擎,Google的網(wǎng)站上至今仍然說(shuō)他們的這項技術(shù)是Patent-pending (專(zhuān)利申請中) ,不知道美國專(zhuān)利局是不是還會(huì )再批這樣的專(zhuān)利。Anyway, 超鏈分析的方法98年以后逐漸被各大搜索引擎所接受,由于鏈接是網(wǎng)絡(luò )內容的一個(gè)根本特性,這時(shí)候的搜索引擎才開(kāi)始真正利用網(wǎng)絡(luò )時(shí)代的檢索技術(shù)。世事難料,2000年起網(wǎng)絡(luò )泡沫迅速破滅,各大搜索引擎要么遭人收購,要么推遲上市,所有使用人氣質(zhì)量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪兒?
■ 第三定律 自信心定律
人氣質(zhì)量定律解決的還是一個(gè)技術(shù)層面的問(wèn)題,然而搜索引擎從誕生的那一天起,從來(lái)就不是一個(gè)純技術(shù)現像,它融合了技術(shù),文化,市場(chǎng)等各個(gè)層面的因素。解決搜索引擎公司的生存和發(fā)展問(wèn)題需要搜索引擎的第三定律--自信心定律。
1998年的時(shí)候,沒(méi)有太多的人拿一家遠在硅谷500英里以外,剛剛成立的,叫作GoTo.com(現已更名為Overture)的公司當回事兒。它不過(guò)是買(mǎi)了一個(gè)搜索引擎的技術(shù)服務(wù),然后再向那些網(wǎng)站的擁有者們拍賣(mài)他們網(wǎng)站在GoTo檢索結果中的排名,誰(shuí)付的錢(qián)多,誰(shuí)的網(wǎng)站就排在前面,而且付費是根據網(wǎng)民點(diǎn)擊該網(wǎng)站的情況來(lái)計算的,僅僅在搜索結果中出現并不需要付費。這就是自信心定律的最早實(shí)踐者!根據這一定律,搜索結果的相關(guān)性排序,除了詞頻統計和超鏈分析之外,更注重的是競價(jià)拍賣(mài)。誰(shuí)對自己的網(wǎng)站有信心,誰(shuí)就排在前面。有信心的表現就是愿意為這個(gè)排名付錢(qián)。需要聲明的是,自信心定律也是我自己給這一模式起的名字,以前的文獻中并沒(méi)有人這樣總結過(guò)。
今天,在網(wǎng)絡(luò )業(yè)一片蕭條,那斯達克風(fēng)聲鶴唳的時(shí)候,GoTo卻如日中天,市值高達13億美金,收入高達雅虎總收入的35%。反觀(guān)門(mén)戶(hù)網(wǎng)站,有哪一個(gè)能從它們的搜索引擎服務(wù)中賺出總收入的三分之一呢?究其原因,就是因為GoTo最早實(shí)踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來(lái)收費的,而CPM是從傳統廣告業(yè)借鑒過(guò)來(lái)的,沒(méi)有考慮網(wǎng)絡(luò )媒體即時(shí)性,交互性,易競價(jià)的特點(diǎn),而競價(jià)排名,點(diǎn)擊收費則是為網(wǎng)站擁有者直接提供銷(xiāo)售線(xiàn)索,而不是傳統意義上的廣告宣傳。自信心定律一改過(guò)去搜索引擎靠CPM收錢(qián)的尷尬局面,開(kāi)創(chuàng )了真正屬于互聯(lián)網(wǎng)的收費模式。
在中國,百度一直致力于推動(dòng)搜索引擎市場(chǎng)的培植和發(fā)展,現在,我們聯(lián)合了各大門(mén)戶(hù)網(wǎng)站的搜索引擎,一起通過(guò)百度的競價(jià)排名系統來(lái)實(shí)踐搜索引擎的第三定律,為數十萬(wàn)網(wǎng)站的擁有者提供一個(gè)展示自信心,吸引潛在客戶(hù),發(fā)現銷(xiāo)售線(xiàn)索的平臺。
聯(lián)系客服