本站的域名是alexacnseo.net,但是迄今為止筆者都沒(méi)有寫(xiě)過(guò)一篇關(guān)于搜索引擎優(yōu)化的的文章。筆者的初衷是希望能讓www.alexacnseo.net這個(gè)博客成為大家討論互聯(lián)網(wǎng)技術(shù)并且探討SEO或者SEM的場(chǎng)所,所以今天筆者打算寫(xiě)關(guān)于這方面領(lǐng)域的第一篇文章。

眾所周知,一個(gè)網(wǎng)站的流量能大致分成三個(gè)部分:直接訪(fǎng)問(wèn)(direct)、引用頁(yè)(referer)和搜索(search engine)。其實(shí)搜索那一部分也能屬于引用頁(yè)的范疇,但是它太重要了,讓我們不能不單獨拿出來(lái)作為一個(gè)獨立的分析模塊??傮w來(lái)說(shuō),根據網(wǎng)站的性質(zhì)和發(fā)展,這三部分的比例會(huì )有所不同。比如說(shuō),對于門(mén)戶(hù)網(wǎng)站來(lái)說(shuō),直接訪(fǎng)問(wèn)的百分比應該一般網(wǎng)站高,不然“門(mén)戶(hù)”一詞就失去了意義。同樣,對于一些提供服務(wù)性質(zhì)的網(wǎng)站,搜索部分就應該高一點(diǎn),因為當用戶(hù)需要尋找某項服務(wù)的時(shí)候,第一站往往是百度或谷歌。對于這三部分的流量,會(huì )有不同的策略和方法去提高自己網(wǎng)站的訪(fǎng)問(wèn)量。在本文中,筆者側重于搜索引擎。

下面就讓我們來(lái)介紹一下今天的主角——爬蟲(chóng)(crawler)。爬蟲(chóng)是搜索引擎獲取網(wǎng)絡(luò )資源的重要途徑。通過(guò)網(wǎng)絡(luò )爬蟲(chóng),搜索引擎可以有機的獲取當前互聯(lián)網(wǎng)上最新的網(wǎng)頁(yè),為接下來(lái)分析關(guān)鍵詞,排序等等提供素材。既然爬蟲(chóng)如此的重要,那么我們就應該針對爬蟲(chóng)給他提供一些適合他的“食物”(筆者在此不想提過(guò)多的技術(shù)分析,比如說(shuō)廣度優(yōu)先,深度優(yōu)先,內容相關(guān),網(wǎng)頁(yè)重要性等等,那些是留給各個(gè)研發(fā)人員去關(guān)心的事情,在這里筆者只想描述些概念性的觀(guān)點(diǎn),適合大家理解討論)。但是在這里有個(gè)非常重要的概念就是爬蟲(chóng)是很有禮貌的,它不會(huì )不告而訪(fǎng)。它會(huì )在自己的“user agent”聲稱(chēng)“我是某某搜索引擎的爬蟲(chóng)”。這就為我們提用一個(gè)很好的機會(huì ),因為機器畢竟和人不一樣,要達到人類(lèi)最好的視覺(jué)效果可能會(huì )對搜索引擎對頁(yè)面的分析不利,反之亦然。通過(guò)探測爬蟲(chóng)的方法,可以把一個(gè)完全只適合給機器看的頁(yè)面交給爬蟲(chóng)但是一點(diǎn)也不影響到自己真正用戶(hù)的用戶(hù)體驗。而且,隨著(zhù)時(shí)間的發(fā)展,爬蟲(chóng)開(kāi)始變的越來(lái)越聰明,有些爬蟲(chóng)比如說(shuō)google,已經(jīng)可以理解頁(yè)面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>這樣外部的javascript),這樣如果你不想讓爬蟲(chóng)去某個(gè)鏈接的話(huà)完全可以把它寫(xiě)進(jìn)javascript中。至于說(shuō)html里面的各個(gè)標簽應該怎么寫(xiě)對搜索引擎有益,互聯(lián)網(wǎng)上已經(jīng)有很多文章闡述了,本文就不贅述了。

爬蟲(chóng)還有一個(gè)重要但是很無(wú)奈的特點(diǎn)就是爬蟲(chóng)的資源是有限的。特別是對于一些規模較小的搜索引擎,他們會(huì )設計自己的一套算法來(lái)決定是否要讓爬蟲(chóng)訪(fǎng)問(wèn)某個(gè)頁(yè)面。如果這個(gè)頁(yè)面不夠“重要”(由各個(gè)引擎自己定義),而且資源也不夠的情況下,這個(gè)頁(yè)面就會(huì )被忽略。我們不妨來(lái)做個(gè)實(shí)驗,去百度的網(wǎng)站輸入“site: cn.alexa.com”,會(huì )顯示有“約694,000篇”,再去sogou的網(wǎng)頁(yè)嘗試,你會(huì )看見(jiàn)“找到 6 個(gè)網(wǎng)頁(yè)”。這也給各位希望做搜索引擎優(yōu)化的諸位提個(gè)警鐘,不要太在意這個(gè)時(shí)候在(小規模搜索引擎的)結果。如果資金允許的話(huà),在這個(gè)時(shí)候在小規模引擎上買(mǎi)些關(guān)鍵詞的效果會(huì )來(lái)的更好。

筆者感想:身為Alexa的高級工程師,讓我感到自豪的是google在其初期階段一直都是使用Alexa的爬蟲(chóng)結果。還記得有一次一個(gè)老員工在和我吹當年google兩位創(chuàng )始人來(lái)alexa尋求合作時(shí)候的場(chǎng)景。但是時(shí)代變化如此之快,現在google已經(jīng)是排名第一互聯(lián)網(wǎng)公司,而我們卻被amazon收購,不得不說(shuō)“shame on Alexa”。這些都是題外話(huà),時(shí)下搜索引擎優(yōu)化是網(wǎng)絡(luò )時(shí)下非常流行的詞匯,但是如果我們不能了解一點(diǎn)搜索引擎本身的話(huà),就很難有所針對性的作出判斷和動(dòng)作。在美國有一句話(huà)是這么說(shuō)的“一個(gè)好的醫生知道怎么樣去手術(shù),但是一個(gè)杰出的醫生知道怎么樣不去手術(shù)”。我想同樣的話(huà)也適用在這里,一個(gè)杰出的SEO專(zhuān)家應該知道什么地方是不應該去做SEO的。以犧牲用戶(hù)的體驗的代價(jià)來(lái)提高流量的行為往往得不償失。希望各位讀者在做類(lèi)似的決定的時(shí)候能夠慎行。