亚洲无码黄视频在线观看_ 搜索引擎優(yōu)化之爬蟲(chóng)篇

搜索引擎優(yōu)化之爬蟲(chóng)篇

Monday, April 5th, 2010 | Alexa | 吳樑楠

本站的域名是alexacnseo.net，但是迄今為止筆者都沒(méi)有寫(xiě)過(guò)一篇關(guān)于搜索引擎優(yōu)化的的文章。筆者的初衷是希望能讓www.alexacnseo.net這個(gè)博客成為大家討論互聯(lián)網(wǎng)技術(shù)并且探討SEO或者SEM的場(chǎng)所，所以今天筆者打算寫(xiě)關(guān)于這方面領(lǐng)域的第一篇文章。

眾所周知，一個(gè)網(wǎng)站的流量能大致分成三個(gè)部分：直接訪(fǎng)問(wèn)（direct）、引用頁(yè)（referer）和搜索（search engine）。其實(shí)搜索那一部分也能屬于引用頁(yè)的范疇，但是它太重要了，讓我們不能不單獨拿出來(lái)作為一個(gè)獨立的分析模塊?？傮w來(lái)說(shuō)，根據網(wǎng)站的性質(zhì)和發(fā)展，這三部分的比例會(huì )有所不同。比如說(shuō)，對于門(mén)戶(hù)網(wǎng)站來(lái)說(shuō)，直接訪(fǎng)問(wèn)的百分比應該一般網(wǎng)站高，不然“門(mén)戶(hù)”一詞就失去了意義。同樣，對于一些提供服務(wù)性質(zhì)的網(wǎng)站，搜索部分就應該高一點(diǎn)，因為當用戶(hù)需要尋找某項服務(wù)的時(shí)候，第一站往往是百度或谷歌。對于這三部分的流量，會(huì )有不同的策略和方法去提高自己網(wǎng)站的訪(fǎng)問(wèn)量。在本文中，筆者側重于搜索引擎。

下面就讓我們來(lái)介紹一下今天的主角——爬蟲(chóng)（crawler）。爬蟲(chóng)是搜索引擎獲取網(wǎng)絡(luò )資源的重要途徑。通過(guò)網(wǎng)絡(luò )爬蟲(chóng)，搜索引擎可以有機的獲取當前互聯(lián)網(wǎng)上最新的網(wǎng)頁(yè)，為接下來(lái)分析關(guān)鍵詞,排序等等提供素材。既然爬蟲(chóng)如此的重要，那么我們就應該針對爬蟲(chóng)給他提供一些適合他的“食物”（筆者在此不想提過(guò)多的技術(shù)分析，比如說(shuō)廣度優(yōu)先，深度優(yōu)先，內容相關(guān)，網(wǎng)頁(yè)重要性等等，那些是留給各個(gè)研發(fā)人員去關(guān)心的事情，在這里筆者只想描述些概念性的觀(guān)點(diǎn)，適合大家理解討論）。但是在這里有個(gè)非常重要的概念就是爬蟲(chóng)是很有禮貌的，它不會(huì )不告而訪(fǎng)。它會(huì )在自己的“user agent”聲稱(chēng)“我是某某搜索引擎的爬蟲(chóng)”。這就為我們提用一個(gè)很好的機會(huì )，因為機器畢竟和人不一樣，要達到人類(lèi)最好的視覺(jué)效果可能會(huì )對搜索引擎對頁(yè)面的分析不利，反之亦然。通過(guò)探測爬蟲(chóng)的方法，可以把一個(gè)完全只適合給機器看的頁(yè)面交給爬蟲(chóng)但是一點(diǎn)也不影響到自己真正用戶(hù)的用戶(hù)體驗。而且，隨著(zhù)時(shí)間的發(fā)展，爬蟲(chóng)開(kāi)始變的越來(lái)越聰明，有些爬蟲(chóng)比如說(shuō)google,已經(jīng)可以理解頁(yè)面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>這樣外部的javascript),這樣如果你不想讓爬蟲(chóng)去某個(gè)鏈接的話(huà)完全可以把它寫(xiě)進(jìn)javascript中。至于說(shuō)html里面的各個(gè)標簽應該怎么寫(xiě)對搜索引擎有益，互聯(lián)網(wǎng)上已經(jīng)有很多文章闡述了，本文就不贅述了。

爬蟲(chóng)還有一個(gè)重要但是很無(wú)奈的特點(diǎn)就是爬蟲(chóng)的資源是有限的。特別是對于一些規模較小的搜索引擎，他們會(huì )設計自己的一套算法來(lái)決定是否要讓爬蟲(chóng)訪(fǎng)問(wèn)某個(gè)頁(yè)面。如果這個(gè)頁(yè)面不夠“重要”（由各個(gè)引擎自己定義），而且資源也不夠的情況下，這個(gè)頁(yè)面就會(huì )被忽略。我們不妨來(lái)做個(gè)實(shí)驗，去百度的網(wǎng)站輸入“site: cn.alexa.com”，會(huì )顯示有“約694,000篇”，再去sogou的網(wǎng)頁(yè)嘗試，你會(huì )看見(jiàn)“找到 6 個(gè)網(wǎng)頁(yè)”。這也給各位希望做搜索引擎優(yōu)化的諸位提個(gè)警鐘，不要太在意這個(gè)時(shí)候在（小規模搜索引擎的）結果。如果資金允許的話(huà)，在這個(gè)時(shí)候在小規模引擎上買(mǎi)些關(guān)鍵詞的效果會(huì )來(lái)的更好。

筆者感想：身為Alexa的高級工程師，讓我感到自豪的是google在其初期階段一直都是使用Alexa的爬蟲(chóng)結果。還記得有一次一個(gè)老員工在和我吹當年google兩位創(chuàng )始人來(lái)alexa尋求合作時(shí)候的場(chǎng)景。但是時(shí)代變化如此之快，現在google已經(jīng)是排名第一互聯(lián)網(wǎng)公司，而我們卻被amazon收購，不得不說(shuō)“shame on Alexa”。這些都是題外話(huà)，時(shí)下搜索引擎優(yōu)化是網(wǎng)絡(luò )時(shí)下非常流行的詞匯，但是如果我們不能了解一點(diǎn)搜索引擎本身的話(huà)，就很難有所針對性的作出判斷和動(dòng)作。在美國有一句話(huà)是這么說(shuō)的“一個(gè)好的醫生知道怎么樣去手術(shù)，但是一個(gè)杰出的醫生知道怎么樣不去手術(shù)”。我想同樣的話(huà)也適用在這里，一個(gè)杰出的SEO專(zhuān)家應該知道什么地方是不應該去做SEO的。以犧牲用戶(hù)的體驗的代價(jià)來(lái)提高流量的行為往往得不償失。希望各位讀者在做類(lèi)似的決定的時(shí)候能夠慎行。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

搜索引擎優(yōu)化之爬蟲(chóng)篇