哪些情況是網(wǎng)站在無(wú)知的情況下被搜索引擎認定為復制網(wǎng)頁(yè)?并有可能被誤殺?
在本次紐約舉行的搜索引擎戰略大會(huì )SES上,很多與會(huì )者就復制網(wǎng)頁(yè)的問(wèn)題進(jìn)行了討論。以下是各位搜索引擎專(zhuān)家的見(jiàn)解:
Anne Kennedy:復制網(wǎng)頁(yè)的情況包括不同URL下?lián)碛型瑯拥木W(wǎng)站內容,或同一首頁(yè)下有同樣的內容,如index.htm, index.html等后綴下都是同樣的內容。
Shari Thurow:搜索引擎對于復制網(wǎng)頁(yè)的識別和判斷也做了大量努力,如搜索引擎在比較兩個(gè)網(wǎng)頁(yè)時(shí)會(huì )排除一些干擾因素如導航區域,headers等,直接分析正文內容部分,其次搜索引擎還會(huì )通過(guò)分析網(wǎng)頁(yè)內部和外部鏈接以判斷是否每個(gè)站點(diǎn)的鏈接都不同。
Jake Baillie:很多網(wǎng)站為了方便用戶(hù)對每篇文章都有一個(gè)“打印友好頁(yè)”的相同內容頁(yè)面,還有很多產(chǎn)品介紹頁(yè)面只有產(chǎn)品圖片沒(méi)有文字介紹的內容,都有可能被搜索引擎視為復制網(wǎng)頁(yè)。
解決復制網(wǎng)頁(yè)的辦法除了簡(jiǎn)單地不要復制相同內容,還可以在不得已需要復制的網(wǎng)頁(yè)上通過(guò)robots.txt文件讓搜索引擎不要索引該頁(yè)面,或使用301重定向將復制的網(wǎng)頁(yè)轉化成“真實(shí)”的網(wǎng)頁(yè)。
專(zhuān)家們認為現實(shí)情況是如果某個(gè)內容率先出現在一個(gè)普通網(wǎng)站上,隨后被“權威網(wǎng)站”所轉載,Google往往認定權威網(wǎng)站的內容是原始內容站,而真正的原始站點(diǎn)被認為復制網(wǎng)頁(yè)。不過(guò)Google通常情況下不會(huì )懲罰復制網(wǎng)頁(yè),除非這個(gè)網(wǎng)站太過(guò)極端,比如做了N多的鏡像網(wǎng)站。
搜索引擎在判斷原始網(wǎng)頁(yè)與復制網(wǎng)頁(yè)上有不少漏洞。搜索引擎專(zhuān)家建議,為了避免被搜索引擎認為復制網(wǎng)頁(yè),如果一個(gè)html網(wǎng)頁(yè)同時(shí)擁有一個(gè)PDF版本或設置了打印友好頁(yè),最好用robots.txt文件阻止搜索引擎索引重復內容文件;