打開(kāi)SOGOU首頁(yè),“3.0”,“100億”兩組數字尤為顯眼,看來(lái)SOGOU在拿抓取100億頁(yè)面來(lái)做文章,吸引眾人眼光。但其所稱(chēng)的100億數字,令眼鏡蛇質(zhì)疑,抓取的100億頁(yè)面質(zhì)量怎么樣,如果將一堆垃圾網(wǎng)站的頁(yè)面抓來(lái),不如不統計。
根據搜索研究3年的經(jīng)驗,眼鏡蛇試用以前研究搜索的方法前去搜索了某些關(guān)鍵字,得到的結果令人驚訝。首先拿“搜索 %D0%A1%CB%B5”當做關(guān)鍵字去搜索,得到了“1,463,786”個(gè)結果,根據前幾十頁(yè)顯示,SOGOU抓取的幾乎是互聯(lián)網(wǎng)某些網(wǎng)站搜索結果的頁(yè)面。比如第一名,抓的是百度相關(guān)搜索的文章。SOGOU本身是做搜索的,又去抓其他站的站內搜索,這樣做是為了什么呢?原因之一,就是為了增加收錄量,因為一個(gè)網(wǎng)站,站內搜索關(guān)鍵字可以去換,比如眼鏡蛇在百度搜索音樂(lè ),SOGOU抓一次,眼鏡蛇在百度搜索影視,SOGOU再抓一次,這樣的話(huà),搜索的次數越多,SOGOU抓的可能性越大,這種方法是SOGOU號稱(chēng)抓取百億網(wǎng)頁(yè)的其中之一。這種作法不會(huì )影響SOGOU的搜索質(zhì)量,又同時(shí)給SOGOU增加了數據量,SOGOU在這點(diǎn)很聰明。
針對做弊網(wǎng)站,SOGOU也是照抓不誤,百度針對做弊網(wǎng)站的作法是封殺,然而SOGOU幾乎不封的,只是降權,這一點(diǎn)又為SOGOU在數據量上做了貢獻。像GOOGLE上的做弊網(wǎng)站也很多,多數雖然不封殺,但不會(huì )拿抓取網(wǎng)頁(yè)數作為搜索宣傳的手段。
眼鏡蛇又想到了個(gè)方法測試SOGOU抓取百億頁(yè)面的方法,就是利用幾乎每篇文章中幾乎出現的“com”,“的”等前去搜索,結果也令人失望,“com”詞在SOGOU搜索中只找到“1,428,761,785”個(gè)結果。百度搜索“com”的結果個(gè)數為“100,000,000”,GOOGLE搜索“com”的結果個(gè)數為“628,000,000”,YAHOO中文搜索“com”的結果個(gè)數為“1,570,000,000”。在這個(gè)特別關(guān)鍵字上,百度,GOOGLE,YAHOO已經(jīng)將此關(guān)鍵字的搜索結果個(gè)數處理了,SOGOU的數據應該是未處理的,其結果只有14億多。很明顯的看出,SOGOU網(wǎng)頁(yè)抓取數據之多,但供檢索的數量遠沒(méi)有100億那么龐大。
眼鏡蛇利用SOGOU的“比比看”試著(zhù)搜索了一些熱門(mén)關(guān)鍵字,發(fā)現SOGOU的技術(shù)的確大有進(jìn)步,好些詞的結果滿(mǎn)意度已經(jīng)超過(guò)了baidu與GOOGLE。網(wǎng)頁(yè)搜索質(zhì)量上去了,但也不能撒謊稱(chēng)自己擁有百億搜索結果,用戶(hù)關(guān)心的是搜索質(zhì)量,不是搜索數量。搜索行業(yè),2007又是殘酷競爭的一年,SOGOU要想一統天下,下面就要看怎么從百度,GOOGLE中搶用戶(hù)了。
聯(lián)系客服