Google和Baidu收錄網(wǎng)站頁(yè)面的標準是不同的。
為了驗證這一點(diǎn),我做一個(gè)實(shí)驗:我申請了一個(gè)新域名www.moon-blog.com,不再其他任何網(wǎng)站做鏈接,而直接往百度和Google搜索引擎的提交頁(yè)面進(jìn)行提交。一個(gè)月過(guò)去了,百度收錄的網(wǎng)頁(yè)是24,900篇,Google收錄的網(wǎng)頁(yè)是0,這證實(shí)了我以前的猜測。
這說(shuō)明了什么呢?說(shuō)明百度比Google好嗎?絕對不是的。因為Baidu和Google收錄頁(yè)面的標準是完全不同的。
Google是按照網(wǎng)頁(yè)級別來(lái)收錄的,只要你有一定的網(wǎng)頁(yè)級別,Google會(huì )快速收錄的,而沒(méi)有網(wǎng)頁(yè)級別的網(wǎng)站,Google則堅決不去收錄。Baidu則很夸張,采用的是來(lái)者不拒,多多益善的原則,無(wú)休止的進(jìn)行收錄。Baidu的這種不按網(wǎng)頁(yè)級別的收錄方式其實(shí)有很大的惡果,最主要的惡果是造成大量的垃圾網(wǎng)站流行,因為只要做一個(gè)垃圾站,Baidu就會(huì )立刻收錄(25000頁(yè)以?xún)龋?,這等于變相的鼓勵大家去做垃圾站,去盲目采集。當垃圾站橫行的時(shí)候,Baidu再通過(guò)人工的方式封站,對于大流量的網(wǎng)站再威脅其辦理百度競價(jià)排名。因此Baidu和大量的個(gè)人站長(cháng)都有一段恩怨。
這兩種收錄方式哪種更好呢?我個(gè)人認為Google的這種收錄方式是比較科學(xué)的。因為互聯(lián)網(wǎng)上的頁(yè)面是個(gè)天文數字,收錄應該是有選擇的收錄,好的網(wǎng)站則多收錄,新站則應該少收錄,等其慢慢知名了以后再多收錄,這樣也提高了效率,讓用戶(hù)搜索到更好的頁(yè)面而不是更多的頁(yè)面。而且Google的爬蟲(chóng)占用服務(wù)器的資源較少,通常是先用head來(lái)查看網(wǎng)頁(yè)是否更新,如果更新了再抓取整個(gè)頁(yè)面,這種方法耗費流量較少。而百度則不管三七二十一上來(lái)就抓整個(gè)站,而且其爬蟲(chóng)數量非常龐大,對于頁(yè)面較多的網(wǎng)站通常會(huì )耗費驚人的流量,并且常常造成惡劣的后果。例如我以前的月光軟件站有一段時(shí)間CPU耗費極大,IIS連接數也逼近1000,每天流量高達10多G,電信機房總威脅要限制我的帶寬,我以前一直以為是被別人DDOS攻擊,但是我購買(mǎi)了新的服務(wù)器,換了幾個(gè)IP,甚至更換了幾個(gè)機房,依然無(wú)法解決問(wèn)題,不得已只好將服務(wù)器托管到外地流量充裕的機房,但CPU負荷還總是居高不下。直到我網(wǎng)站被百度封了后,百度爬蟲(chóng)再也不再光故,這時(shí)我才驚奇地發(fā)現,我的CPU和流量終于處于一種穩定合理的狀態(tài)了,到目前為之,我站每天流量也有十多G,但CPU一直都沒(méi)有超過(guò)5%,服務(wù)器也很少出現死機和大量IIS連接的狀況,因此我開(kāi)始懷疑,以前的所謂被DDOS攻擊,其實(shí)只是大量的百度爬蟲(chóng)在抓取我的網(wǎng)站而已,由于其爬蟲(chóng)數量龐大,才引起我服務(wù)器的超負荷運轉以至瀕于崩潰。
當然,百度這種“貪婪”爬蟲(chóng)抓取方法,雖然會(huì )讓用戶(hù)能夠在百度搜索出一些Google里搜索不到的頁(yè)面,但這實(shí)在是太損人利己了。其帶給網(wǎng)站站長(cháng)的則是大量的負面效果:服務(wù)器和帶寬資源過(guò)渡消耗,垃圾站被變相鼓勵了,原創(chuàng )的有特色的網(wǎng)站則被邊緣化。
因此,中國的網(wǎng)民也出現了很奇怪的現象:大量的新網(wǎng)民和菜鳥(niǎo)人士喜歡用百度搜索,因為百度往往搜索到很多別人沒(méi)有的頁(yè)面,而專(zhuān)業(yè)人員和老鳥(niǎo)則更喜歡用Google,個(gè)人站長(cháng)則普遍和百度有“個(gè)人恩怨”。因此百度在業(yè)界的Blog以及社區中口碑都不太好,但是依舊還是有大量流量。
聯(lián)系客服