欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
google搜索原理

   這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網(wǎng)頁(yè)并建立索引,它的查詢(xún)結果比其它現有系統都高明。這個(gè)原型的全文和超連接的數據庫至少包含24‘000‘000個(gè)網(wǎng)頁(yè)。我們可以從http://google.stanford.edu/ 下載。
設計搜索引擎是一項富有挑戰性的工作。搜索引擎為上億個(gè)網(wǎng)頁(yè)建立索引,其中包含大量迥然不同的詞匯。而且每天要回答成千上萬(wàn)個(gè)查詢(xún)。在網(wǎng)絡(luò )中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。此外由于技術(shù)的快速發(fā)展和網(wǎng)頁(yè)的大量增加,現在建立一個(gè)搜索引擎和三年前完全不同。
本文詳細介紹了我們的大型搜索引擎,據我們所知,在公開(kāi)發(fā)表的論文中,這是第一篇描述地如此詳細。除了把傳統數據搜索技術(shù)應用到如此大量級網(wǎng)頁(yè)中所遇到的問(wèn)題,還有許多新的技術(shù)挑戰,包括應用超文本中的附加信息改進(jìn)搜索結果。
本文將解決這個(gè)問(wèn)題,描述如何運用超文本中的附加信息,建立一個(gè)大型實(shí)用系統。任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無(wú)組織的超文本集合,也是本文要關(guān)注的問(wèn)題。
關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來(lái)了新的挑戰。Web上的信息量快速增長(cháng),同時(shí)不斷有毫無(wú)經(jīng)驗的新用戶(hù)來(lái)體驗Web這門(mén)藝術(shù)。人們喜歡用超級鏈接來(lái)網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁(yè)或搜索引擎開(kāi)始。大家認為L(cháng)ist(目錄)有效地包含了大家感興趣的主題,但是它具有主觀(guān)性,建立和維護的代價(jià)高,升級慢,不能包括所有深奧的主題?;陉P(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。使問(wèn)題更遭的是,一些廣告為了贏(yíng)得人們的關(guān)注想方設法誤導自動(dòng)搜索引擎。
我們建立了一個(gè)大型搜索引擎解決了現有系統中的很多問(wèn)題。應用超文本結構,大大提高了查詢(xún)質(zhì)量。我們的系統命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個(gè)大型搜索引擎不謀而合。
1.1網(wǎng)絡(luò )搜索引擎—升級換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(scale dramatically)跟上成倍增長(cháng)的web數量。1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁(yè)和Web的文件。到1994年11月,頂級的搜索引擎聲稱(chēng)可以檢索到2‘000’000(WebCrawler)至100‘000’000個(gè)網(wǎng)絡(luò )文件(來(lái)自 Search Engine Watch)??梢灶A見(jiàn)到2000年,可檢索到的網(wǎng)頁(yè)將超過(guò)1‘000’000‘000。同時(shí),搜索引擎的訪(fǎng)問(wèn)量也會(huì )以驚人的速度增長(cháng)。在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢(xún)。
在1997年11月,Altavista 聲稱(chēng)它每天要處理大約20’000’000個(gè)查詢(xún)。隨著(zhù)網(wǎng)絡(luò )用戶(hù)的增長(cháng),到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢(xún)。我們系統的設計目標要解決許多問(wèn)題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù)(scaling search engine technology),把它升級到如此大量的數據上。
1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當今web規模相適應的搜索引擎會(huì )面臨許多挑戰。抓網(wǎng)頁(yè)技術(shù)必須足夠快,才能跟上網(wǎng)頁(yè)變化的速度(keep them up to date)。存儲索引和文檔的空間必須足夠大。索引系統必須能夠有效地處理上千億的數據。處理查詢(xún)必須快,達到每秒能處理成百上千個(gè)查詢(xún)(hundreds to thousands per second.)。隨著(zhù)Web的不斷增長(cháng),這些任務(wù)變得越來(lái)越艱巨。然而硬件的執行效率和成本也在快速增長(cháng),可以部分抵消這些困難。
還有幾個(gè)值得注意的因素,如磁盤(pán)的尋道時(shí)間(disk seek time),操作系統的效率(operating system robustness)。在設計Google的過(guò)程中,我們既考慮了Web的增長(cháng)速度,又考慮了技術(shù)的更新。Google的設計能夠很好的升級處理海量數據集。它能夠有效地利用存儲空間來(lái)存儲索引。優(yōu)化的數據結構能夠快速有效地存?。▍⒖?.2節)。進(jìn)一步,我們希望,相對于所抓取的文本文件和HTML網(wǎng)頁(yè)的數量而言,存儲和建立索引的代價(jià)盡可能的?。▍⒖几戒汢)。對于象Google這樣的集中式系統,采取這些措施得到了令人滿(mǎn)意的系統可升級性(scaling properties)。
1. 3設計目標
1.3.1提高搜索質(zhì)量我們的主要目標是提高Web搜索引擎的質(zhì)量。1994年,有人認為建立全搜索索引(a complete search index)可以使查找任何數據都變得容易。根據Best of the Web 1994 -- Navigators ,“最好的導航服務(wù)可以使在Web上搜索任何信息都很容易(當時(shí)所有的數據都可以被登錄)”。然而1997年的Web就迥然不同。近來(lái)搜索引擎的用戶(hù)已經(jīng)證實(shí)索引的完整性不是評價(jià)搜索質(zhì)量的唯一標準。用戶(hù)感興趣的搜索結果往往湮沒(méi)在“垃圾結果Junk result”中。實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結果中有它自己)。導致這一問(wèn)題的主要原因是文檔的索引數目增加了好幾個(gè)數量級,但是用戶(hù)能夠看的文檔數卻沒(méi)有增加。用戶(hù)仍然只希望看前面幾十個(gè)搜索結果。因此,當集合增大時(shí),我們就需要工具使結果精確(在返回的前幾十個(gè)結果中,有關(guān)文檔的數量)。由于是從成千上萬(wàn)個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。高精確非常重要,甚至以響應(系統能夠返回的有關(guān)文檔的總數)為代價(jià)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應用 。尤其是鏈接結構和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過(guò)濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本(見(jiàn)2.1和2.2節)。
1.3.2搜索引擎的學(xué)術(shù)研究隨著(zhù)時(shí)間的流逝,除了發(fā)展迅速,Web越來(lái)越商業(yè)化。1993年,只有1.5%的Web服務(wù)是來(lái)自.com域名。到1997年,超過(guò)了60%。同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。到現在大多數搜索引擎被公司所有,很少技公開(kāi)術(shù)細節。這就導致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見(jiàn)附錄A)。Google的主要目標是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對它的了解。另一個(gè)設計目標是給大家一個(gè)實(shí)用的系統。應用對我們來(lái)說(shuō)非常重要,因為現代網(wǎng)絡(luò )系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems...

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Wikia開(kāi)發(fā)開(kāi)源搜索引擎 Google面臨更多對手
搜索領(lǐng)域群雄并起 新秀誓言超越Google [熱點(diǎn)追擊]
使用Python實(shí)現簡(jiǎn)單的搜索引擎,完整源碼
Google激怒微軟 搶奪桌面控制權的王者爭霸
Google8年首頁(yè)變化圖
號稱(chēng)比Google出色 MyLiveSearch將推出
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久