欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
Google工程師詳述Google的搜索結果排列算法

Google工程師詳述Google的搜索結果排列算法

網(wǎng)易科技訊 本文作者馬特-卡茲(Matt Cutts)是Google公司品質(zhì)管理部門(mén)的軟件工程師。他的工作主要是給好的網(wǎng)站評定等級,并負責開(kāi)發(fā)阻止虛假或垃圾網(wǎng)站出現在Google搜索結果上的技術(shù)。

圖書(shū)館管理員們提出最多的問(wèn)題之一是:“對于什么樣的結果應該位于搜索列表的最上方,Google是如何選擇的?”現在品質(zhì)工程師馬特-卡茲介紹了快速入門(mén)的知識,解釋了Google是如何在網(wǎng)上爬行和索引,以及如何評定搜索結果等級的。馬特也向學(xué)校圖書(shū)館管理員提出建議,告訴他們如何輔導學(xué)生。

爬行和索引

在你瀏覽包含了Google搜索結果的網(wǎng)頁(yè)之前,要發(fā)生很多事情。首先是在萬(wàn)維網(wǎng)數以十億計的網(wǎng)頁(yè)上爬行和索引,這個(gè)工作是由Googlebot完成的,它負責與全球的網(wǎng)絡(luò )服務(wù)器連接以收集文件。爬行不是真的在網(wǎng)上漫游,而是訪(fǎng)問(wèn)網(wǎng)絡(luò )服務(wù)器返回到一個(gè)特定的網(wǎng)頁(yè)上,接著(zhù)掃描該網(wǎng)頁(yè)建立超鏈接并為每一個(gè)網(wǎng)頁(yè)編上號碼。爬行可收集大量的文件,但這些文件還不能直接用于搜索。

如果沒(méi)有索引,在你想查詢(xún)如“civil war”(南北戰爭)等內容時(shí),Google的服務(wù)器將不得不在你每次搜索時(shí)閱讀每一份文件的內容。因此第二個(gè)步驟是要建立一個(gè)索引,這樣就需要“轉換”爬行所獲得的數據。為了不必在每一份文件上掃描每一個(gè)單詞,就需要在數據上做些文章,以便顯示包含了特定單詞的所有文件。例如,假設單詞“civil”在編號為3、8、22、56、68和92的文件上出現過(guò),而單詞“war”出現編號為2、8、15、22、68和77的文件上。

一旦建立了索引,就開(kāi)始對文件進(jìn)行等級評定并確定它們的相關(guān)性。假如某個(gè)人上Google搜索并輸入“civil war”,為呈現和評價(jià)搜索結果需要做兩件事:一是查找包含了用戶(hù)提問(wèn)的網(wǎng)頁(yè);二是按照相關(guān)性排定匹配網(wǎng)頁(yè)的位置。Google已經(jīng)開(kāi)發(fā)出一個(gè)有趣的技術(shù)可加速第一步驟的過(guò)程:不是將所有索引存儲在一臺電腦上,而是使用數百臺電腦做這種工作。由于任務(wù)被分配到很多電腦上,使得查詢(xún)答案更為迅速。

為更加形象地描述這個(gè)過(guò)程,可以設想下一本30頁(yè)厚書(shū)的索引。如果一個(gè)人在索引中查找數頁(yè)的信息,那么每一次搜索都至少需要花幾秒鐘的時(shí)間;但如果你將索引的每一頁(yè)分給不同的人去查找呢?三十個(gè)人分別查找索引的不同部分,要比一個(gè)人獨自查找快的多。同樣,Google也是將數據分配到各臺電腦上以便可以更快地查找文件。

如何查找包含了用戶(hù)提問(wèn)的網(wǎng)頁(yè)?讓我們返回到上面舉的“civil war”例子。單詞“civil”在編號為3、8、22、56、68和92的文件上,單詞“war”在編號為2、8、15、22、68和77的文件上,我們可以在網(wǎng)頁(yè)上顯示文件并尋找包含兩個(gè)單詞的文件(從下表中可以看出是8、22和68號文件)。

單詞civil 3 8 22 56 68 92

單詞war 2 8 15 22 68 77

兩個(gè)單詞都出現 8 22 68

包含了一個(gè)單詞的文件列表被稱(chēng)為“文件標識列表”,查找包含兩個(gè)單詞的文件被稱(chēng)為“文件標識列表的交集”。

評定搜索結果

有了包含用戶(hù)提問(wèn)的網(wǎng)頁(yè)后,就該按照相關(guān)性評定網(wǎng)頁(yè)了。Google使用了很多技術(shù),其中PageRank算法是最有名的。PageRank評定的是兩種事情:從網(wǎng)站到某一網(wǎng)頁(yè)有多少個(gè)鏈接,提供鏈接的網(wǎng)站的排名。使用PageRank,來(lái)自CNN和紐約時(shí)報網(wǎng)站的鏈接的價(jià)值,是很多不太有名網(wǎng)站的兩倍。

除了PageRank外Google還使用了很多其他技術(shù),例如一份文件所包含的“civil”和“war”兩個(gè)單詞靠的很近,就比只使用了“war”單詞的包含“Revolutionary War”(獨立戰爭)的文件相關(guān)性要大的多。另外在題目中出現了“civil war”的網(wǎng)頁(yè),它的相關(guān)性就比題目為“19th Century American Clothing”(19世紀的美國服裝)要重要的多。同樣如果“civil war”在網(wǎng)頁(yè)上出現了數次,比出現一次的網(wǎng)頁(yè)要相關(guān)的多。

Google的目的是要找到知名度和相關(guān)性都大的網(wǎng)頁(yè)。如果兩個(gè)網(wǎng)頁(yè)出現匹配提問(wèn)的信息數量幾乎一樣,我們常常會(huì )選擇更有名網(wǎng)站的鏈接。但如果其他方面表明一個(gè)網(wǎng)頁(yè)更為相關(guān),也會(huì )選擇更少鏈接或更低排名的網(wǎng)頁(yè)。例如,一個(gè)網(wǎng)頁(yè)全篇都是講“南北戰爭”的內容,會(huì )比只是略微提到“南北戰爭”的網(wǎng)頁(yè)更為有用,即使這個(gè)網(wǎng)頁(yè)是出現不太有名的網(wǎng)站上。一旦我們有了文件的列表和分值,就會(huì )選擇最高分值、最匹配的文件。

Google從包含了提問(wèn)單詞的每一份文件中提取幾句話(huà)作為摘要顯示,接著(zhù)將排好的URLs和摘要顯示在搜索結果上。正如你所知道的運行一個(gè)搜索器需要大量的計算資源。每一次搜索需要500臺以上的電腦一起工作,搜索的時(shí)間還不到半秒鐘。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
搜索引擎的工作機制[圖]
常用國內外搜索引擎一覽
Latent Semantic Indexing : 隱性語(yǔ)義索引 | SEO探索
Google VS 百度 對搜索引擎習慣的分析
32個(gè)SEO秘訣飆升網(wǎng)站流量
如何提高網(wǎng)站的Google頁(yè)面等級(PR值)
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久