欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
“重復”內容識別:一場(chǎng)人類(lèi)與機器間的智能競賽

科技行者

來(lái)源:MARTECH TODAY

編譯:科技行者

有時(shí)候,人類(lèi)與機器在判斷哪些內容屬于“重復內容”時(shí)會(huì )產(chǎn)生某些分歧。

機器學(xué)習與基于算法的智能系統雖然擁有令人印象深刻的表現,但同時(shí)也缺少人類(lèi)天然存在的一種能力:常識。

眾所周知,在多個(gè)頁(yè)面上放置相同的內容會(huì )產(chǎn)生重復內容。但是,如果我們打算在多個(gè)頁(yè)面內生成關(guān)于相似事物的內容,又會(huì )發(fā)生怎樣的情況?算法會(huì )將其標記為“重復”,但人類(lèi)則能夠輕松區分這些頁(yè)面:

-電子商務(wù):具有多種變體或關(guān)鍵差異的類(lèi)似產(chǎn)品。

-旅游:酒店分店、目的地套餐、內容相似。

-分類(lèi):相同項目的詳盡清單。

-企業(yè):本地分支機構的頁(yè)面,在不同地區提供相同的服務(wù)。

為什么會(huì )出現這些問(wèn)題?我們該如何發(fā)現此類(lèi)問(wèn)題?又應怎樣解決這些問(wèn)題?

重復內容的風(fēng)險

在用戶(hù)進(jìn)行搜索時(shí),重復內容會(huì )通過(guò)以下方式影響您的網(wǎng)站對用戶(hù)的可見(jiàn)性:

-因無(wú)意中存在相同關(guān)鍵詞而失去唯一匹配網(wǎng)頁(yè)的排名。

-由于谷歌只會(huì )選擇其中一個(gè)網(wǎng)頁(yè)作為規范化,因此無(wú)法對群組中的網(wǎng)頁(yè)進(jìn)行排名。

-由于內容被嚴重簡(jiǎn)化,因此失去網(wǎng)站權威性。

機器如何識別重復內容

谷歌公司利用多種算法確定兩個(gè)頁(yè)面或者頁(yè)面中的多個(gè)部分是否存在內容重復,谷歌將根據相關(guān)結果將內容判定為“明顯相似”。

谷歌公司的相似性檢測基于其專(zhuān)利Simhash算法。這種算法能夠分析網(wǎng)頁(yè)當中的內容塊,而后將每個(gè)內容塊計算為唯一標識符,最終為各個(gè)頁(yè)面生成一個(gè)散列,或者稱(chēng)為“指紋”。

由于網(wǎng)頁(yè)數量巨大,因此可擴展性至關(guān)重要。目前,Simhash是唯一可行的大規模重復內容查找方法。

Simhash指紋擁有以下特性:

-計算成本低廉。其以目標頁(yè)面的單一爬取結果為生成基礎。

-由于長(cháng)度固定,因此不同指紋間易于比較。

-能夠找到具有高重復可能性的內容。與其它多種算法不同,Simhash能夠將頁(yè)面上的微小變化體現為散列中的微小變化。

最后一點(diǎn)意味著(zhù)任何兩個(gè)指紋之間的差異都可以通過(guò)算法進(jìn)行衡量,并表示為百分比形式。為了降低每個(gè)頁(yè)面的評估成本,谷歌公司采用了以下技術(shù):

-聚類(lèi):將多組具有一定相似度的頁(yè)面分于同一群組。由于其它所有不同分類(lèi)的指紋都已經(jīng)被排除,因此只需要比較該群組內的指紋,即可得出相對正確的結論。

-評估:對于規模極為龐大的聚類(lèi),在計算一定數量的指紋之后利用平均相似性進(jìn)行判斷。

比較頁(yè)面指紋。圖片來(lái)源:用于網(wǎng)絡(luò )爬取的近重復文檔檢測(歸谷歌所有)

最后,谷歌方面利用加權相似率排除具有相同內容的特定內容塊(樣板:標題、導航、側邊欄、頁(yè)腳;免責聲明等)。其會(huì )考慮到頁(yè)面主題,并利用n-gram分析來(lái)確定頁(yè)面上出現頻率最高的詞語(yǔ),同時(shí)結合站點(diǎn)上下文判斷這些詞語(yǔ)的重要性。

利用Simhash分析重復內容

我們將利用Simhash查看被標記為相似的內容聚類(lèi)圖。此圖表來(lái)自OnCrawl,其中涵蓋了對重復內容聚類(lèi)中重復內容策略的分析過(guò)程。

OnCrawl的內容分析還包括相似率、內容聚類(lèi)以及n-gram分析。OnCrawl也在開(kāi)發(fā)一款實(shí)驗性熱圖,希望直接覆蓋在網(wǎng)頁(yè)之上表示各個(gè)內容塊的相似性。

按內容相似性進(jìn)行網(wǎng)站繪圖。其中每個(gè)塊代表具有類(lèi)似內容的聚類(lèi),不同顏色則表示每個(gè)聚類(lèi)間規范化化策略的一致性。資源來(lái)源:OnCrawl。

利用規范化進(jìn)行聚類(lèi)驗證

利用規范化URL指示一組相似頁(yè)面當中的主頁(yè)面,使得我們能夠主動(dòng)對大量頁(yè)面進(jìn)行聚類(lèi)。在理想情況下,以規范化為基礎建立的聚類(lèi)應該與由Simhash建立的聚類(lèi)完全相同。

規范化聚類(lèi)與相似性聚類(lèi)(綠色部分)間的匹配結果。結論:有6頁(yè)內容為100%相似,這意味著(zhù)您的規范化策略與谷歌的Simhash分析以同樣的方式對其進(jìn)行處理。

如果結果與上圖不符,則通常意味著(zhù)您的網(wǎng)站之上不存在規范化策略:

無(wú)規范化聲明:各個(gè)包含成百上千個(gè)頁(yè)面的聚類(lèi)之間,擁有著(zhù)99%到100%的平均相似度。谷歌公司可能會(huì )采用規范URL。您無(wú)法控制哪些頁(yè)面參與排名,哪些不參與。

或者,由于您的規范化策略與谷歌在類(lèi)似內容的聚類(lèi)處理方法之間存在沖突:

規范化問(wèn)題:相似性超過(guò)80%且各聚類(lèi)擁有多個(gè)標準URL的大型聚類(lèi)。谷歌公司會(huì )強制使用自己的標準URL,或者將您希望保留的重復頁(yè)面索引排除在搜索索引之外。

您網(wǎng)站的聚類(lèi)與以上聚類(lèi)不同。您已經(jīng)遵循了重復內容的最佳處理實(shí)踐,包含相同內容的URL(例如可打印/移動(dòng)版本或CMS生成的備用網(wǎng)址)會(huì )聲明正確的規范URL。

在規范化處理后繪制出的相似性聚類(lèi)。

過(guò)濾掉由規范化策略正確處理的重復內容。其余的非規范化URL即為您希望進(jìn)行排名的頁(yè)面。

以原有映射圖為基礎,移除已驗證(綠色)聚類(lèi)以及相似性低于80%的聚類(lèi)。其余46個(gè)聚類(lèi)中,大部分只包含2個(gè)頁(yè)面。

仍然出現在基于Simhash與語(yǔ)義分析聚類(lèi)中的URL,即為您與谷歌認為存在重復問(wèn)題的頁(yè)面。

解決唯一內容的內容重復問(wèn)題

目前還沒(méi)有真正令人滿(mǎn)意的方法,能夠糾正機器對于看似重復、實(shí)則唯一頁(yè)面的錯誤判斷:我們無(wú)法改變谷歌識別重復內容的具體方式。但是,仍有一些解決方案能夠幫助我們與谷歌保持相同的唯一內容判斷結論……同時(shí)繼續根據您選定的關(guān)鍵詞進(jìn)行排名。

以下是適合您網(wǎng)站的五種具體策略。

一、解決邊緣情況

首先查看邊緣情況,即具有極低或者極高相似率的聚類(lèi)。

相似度低于20%:相似,但并非高度相似。您可以利用頁(yè)面中的不同錨文本鏈接聚類(lèi)內的各頁(yè)面,從而通知谷歌將其視為不同的頁(yè)面。

最大相似度:找出潛在問(wèn)題。您需要進(jìn)一步豐富內容以區分不同頁(yè)面,或者將多個(gè)頁(yè)面合并為同一頁(yè)面。

二、減少facet數

如果您的重復頁(yè)面與facet相關(guān),則可能存在 索引問(wèn)題。保留已經(jīng)排名的facet,同時(shí)限制您允許谷歌進(jìn)行索引的facet數量。

由基于可排名facet的相同頁(yè)面構成的聚類(lèi)。資料來(lái)源:OnCrawl。

三、提升頁(yè)面唯一性

請記?。簝热莸奈⑿〔町愐鄷?huì )在Simhash指紋中產(chǎn)生細微的差別。您需要對頁(yè)面上的內容進(jìn)行重大更改,而非做出小幅調整。

豐富頁(yè)面內容:

-向頁(yè)面內添加文本內容。

  • 添加不同的圖像描述。

  • 包含完整的客戶(hù)評論。(如果評論適用于多個(gè)頁(yè)面,請合并頁(yè)面!)

  • 添加其它信息。

  • 添加相關(guān)信息。

-使用不同的圖像。

-使用明顯不同的錨文本鏈接至不同頁(yè)面,并測試實(shí)際效果。

-減少相似頁(yè)面之間的共同源代碼量。

-提高頁(yè)面的語(yǔ)義密度。

  • 增加與主題相關(guān)的詞語(yǔ)量,同時(shí)減少填充符。

四、創(chuàng )建排名引用頁(yè)面

如果無(wú)法豐富頁(yè)面內容,或者當前頁(yè)面不適合進(jìn)行豐富,請考慮創(chuàng )建一個(gè)替代所有 “重復”頁(yè)面的單一引用頁(yè)面。此策略的核心,是在符合內容主旨的前提下將從個(gè)關(guān)鍵詞融入同一主頁(yè)面,并將主頁(yè)面作為推廣載體。這種方法特別適合需要將多個(gè)版本的產(chǎn)品作為彼此獨立的單一頁(yè)面進(jìn)行維護的情況。

這項策略還可用于創(chuàng )建針對性需求或者季節性業(yè)務(wù)的網(wǎng)頁(yè)。其可提供更為強大的語(yǔ)義與排名,從而改善頁(yè)面體系。

此策略還適用于廣告網(wǎng)站、招聘網(wǎng)站以及其它通常包含大量相似清單的網(wǎng)站。引用頁(yè)面應按單一特征對各清單進(jìn)行分組,在這方面位置(城市)是一類(lèi)廣泛適用的分類(lèi)指標。

如何操作:

1、創(chuàng )建一個(gè)引用頁(yè)面,匯集所有 “重復”產(chǎn)品頁(yè)面的語(yǔ)義內容。其中應包含您所要使用的全部關(guān)鍵詞,并鏈接至所有 “重復”頁(yè)面。

2、為引用頁(yè)面中的每個(gè)“重復”頁(yè)面設置標準URL,同時(shí)也為引用頁(yè)面自身設置標準URL。鏈接各“重復”頁(yè)面。

3、優(yōu)化網(wǎng)站導航以推廣引用頁(yè)面。

4、立足“重復”頁(yè)面、規范化聲明以及組合內容對鏈接進(jìn)行強化,從而降低引用頁(yè)面的排名難度。

五、合并頁(yè)面

您可能一直在利用相同的內容豐富頁(yè)面?您可能無(wú)法解釋為什么要將其全部保留下來(lái)?要解決這個(gè)問(wèn)題,頁(yè)面合并可能是最好的選擇。

如果您決定將多個(gè)頁(yè)面合并為一個(gè):

-保留執行表現最佳的URL。

-將您正在移除的全部頁(yè)面重新定向(301)至您要保留的頁(yè)面。

-將您正在移除的全部頁(yè)面中的內容,添加至您決定保留并面向聚類(lèi)中全部關(guān)鍵詞進(jìn)行排名優(yōu)化的頁(yè)面當中。

未來(lái)的重復內容處理方法

谷歌公司對頁(yè)面內容的理解能力正在不斷發(fā)展。隨著(zhù)其樣本識別能力以及頁(yè)面意圖區分水平的不斷提升,將唯一內容錯認為重量?jì)热莸臓顩r終將成為歷史。

但在達到這樣的效果之前,大家仍然有必要思考自己的內容為何會(huì )被谷歌算法視為重量?jì)热?,并想辦法說(shuō)服算法改變結論——這將成為相似頁(yè)面實(shí)現成功SEO的關(guān)鍵所在。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
搜索引擎重復網(wǎng)頁(yè)發(fā)現技術(shù)分析
投稿論文查重會(huì )查看摘要嗎?
中國科學(xué)院計算技術(shù)研究所
【自動(dòng)保存】python...
玩轉YouTube SEO,巧用推薦視頻引流
替代ES?向量搜索了解下!
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久