国产亚洲欧美日韩综合_ 淺析搜索引擎的工作原理及檢索技巧搜索引擎檢索信息檢索中國搜索研究中心中國電子商務(wù)...

摘要]隨著(zhù)網(wǎng)絡(luò )信息時(shí)代的到來(lái)，信息檢索處于一個(gè)個(gè)互聯(lián)的網(wǎng)絡(luò )系統之中，用戶(hù)、信息檢索技術(shù)、信息資源構成了信息檢索3個(gè)基本要素。本文主要通過(guò)Internet搜索引擎來(lái)介紹搜索引擎的工作原理及信息檢索技術(shù)。

一、前言

　　隨著(zhù)Internet的迅速發(fā)展，網(wǎng)上信息正以爆炸性的速度增長(cháng)，其資源內容幾乎涉及所有領(lǐng)域，已經(jīng)成為知識、信息的集合體，是人們獲取信息的基本工具。在Internet網(wǎng)上進(jìn)行瀏覽和檢索，就好比進(jìn)入了世界上最大的圖書(shū)館，而這個(gè)圖書(shū)館里的書(shū)刊、雜志、廣告、新聞及各種形式的文獻信息全都沒(méi)有規律地排放著(zhù)，沒(méi)有一個(gè)中心目錄將這些信息組織起來(lái)。正是因為Internet資源既豐富又分散且處于無(wú)序狀態(tài)，使得人們在網(wǎng)上查找自己所需的信息并非易事。這時(shí)為滿(mǎn)足人眾信息檢索的需求，搜索引擎便應運而生。搜索引擎是指使用某些自動(dòng)索引軟件來(lái)發(fā)現、收集網(wǎng)絡(luò )上的信息，然后對收集的網(wǎng)頁(yè)進(jìn)行標引，建立一個(gè)可供查詢(xún)的大型數據庫。

　　二、搜索引擎的工作原理

　　搜索引擎為了以最快的速度得到搜索結果，它搜索的通常是預先整理好的網(wǎng)頁(yè)索引數據庫。搜索引擎，不能真正理解網(wǎng)頁(yè)上的內容，它只能機械的匹配網(wǎng)頁(yè)上的文字。真正意義上的搜索引擎，通常指的是收集了互聯(lián)網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)文字(即關(guān)鍵詞)進(jìn)行索引，建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候，所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。在經(jīng)過(guò)復雜的算法進(jìn)行排序后，這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低，依次排列。

　　搜索引擎的工作原理可以看作三步：從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數據庫→在索引數據庫中搜索排序。

　　1.從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)

　　利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的爬蟲(chóng)系統程序(或者稱(chēng)為機器人程序)，自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng)，沿著(zhù)任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè)，重復這一過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。

　　2.建立索引數據庫

　　由分析索引系統程序對收集回來(lái)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL,編碼類(lèi)型，頁(yè)面內容包含的所有關(guān)鍵詞，關(guān)鍵詞位置，生成時(shí)間，大小，與其它網(wǎng)頁(yè)的鏈接關(guān)系等)，根據一定的相關(guān)度算法進(jìn)行大量復雜計算，得到每一個(gè)網(wǎng)頁(yè)針對頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性)，然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數據庫。

　　3.在索引數據庫中搜索排序

　　當用戶(hù)輸入關(guān)鍵詞搜索后，由搜索系統程序從網(wǎng)頁(yè)索引數據庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因為所有相關(guān)網(wǎng)頁(yè)針對于該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現成的相關(guān)度數值排序，相關(guān)度越高，排名越靠前。最后，由頁(yè)面生成系統將搜索結果的鏈接地址和頁(yè)而內容摘要等內容組織起來(lái)返回給用戶(hù)。

　　由于Web信息會(huì )頻繁更新，例如，新聞網(wǎng)頁(yè)通常每天就要更新，有的網(wǎng)頁(yè)更新周期可能是一周或幾個(gè)月，這種頻繁更新，會(huì )導致數據庫內信息的過(guò)時(shí)。因此，需要更新網(wǎng)頁(yè)索引數據庫，以反映出網(wǎng)頁(yè)文字的更新情況，增加新的網(wǎng)頁(yè)信息，去除死鏈接，并根據網(wǎng)頁(yè)文字和鏈接關(guān)系的變化重新排序。這樣，網(wǎng)頁(yè)的具體文字變化情況就會(huì )反映到用戶(hù)查詢(xún)的結果中。

　　三、檢索技巧

　　1.科學(xué)選擇關(guān)鍵詞。由于搜索引擎智能化程度的影響，它只能在現存的數據庫中查找匹配的關(guān)鍵詞，因此，這種匹配相對比較盲目，我們在選擇關(guān)鍵詞時(shí)，要注意兩方面的問(wèn)題，才有可能得到較好的搜索效果。

　　2.使用雙引號進(jìn)行精確查詢(xún)。如果查找的是一個(gè)詞組或多個(gè)漢字，最好的辦法就是將它們用雙引號括起來(lái)，這樣得到的結果最少、最精確。

　　3.使用加號(+)、減號(-)限定查找。很多搜索引擎都支持在搜索詞前冠以加號(+)限定搜索結果中必須包含的詞匯，用減號(-)限定搜索結果不能包含的詞匯。

　　4.靈活運用使用通配符。很多搜索引擎支持通配符號，如“*”代表一連串字符，“?”代表單個(gè)字符。

　　5.使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復雜的搜索界定，常用的有：AND (和)、OR (或)、NOT(否)及NEAR(兩個(gè)單詞的靠近程度)，恰當應用它們可以使搜索結果非常精確。另外，也可以使用括號將搜索詞分別組合，如(新聞OR足球)AND(米盧)NoT(“新聞”OR足球)

　　6.有針對性地選擇搜索引擎。用不同的搜索引擎進(jìn)行查詢(xún)得到的結果常常有很大的差異，這是因為它們的設計目的和發(fā)展走向存在著(zhù)許多的不同，比如：Download.com是針對軟件類(lèi)的搜索引擎，可搜尋大量的自由軟件和共享軟件。驅動(dòng)之家主要是提供查找驅動(dòng)程序及硬件廠(chǎng)商信息。

　　7.使用元詞檢索。大多數搜索引擎都支持“元詞”(metawords)功能，用戶(hù)把元詞放在關(guān)鍵詞的前面，就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。例如，你在搜索引擎中輸入“title：清華大學(xué)”，就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。其他元詞還包括：image，用于檢索圖片；link，用于檢索鏈接到某個(gè)選定網(wǎng)站的頁(yè)面；URL，用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。

　　8.細化查詢(xún)。許多搜索引擎都提供了對搜索結果進(jìn)行細化與再查詢(xún)的功能，如有的搜索引擎在結果中有”查詢(xún)類(lèi)似網(wǎng)頁(yè)”的按鈕，還有一些則可以對得到的結果進(jìn)行新一輪的查詢(xún)。

　　9.盡可能將搜索范圍限制在特定的領(lǐng)域里。比如在yahoo中文網(wǎng)站中，你要查找的是與電腦相關(guān)的知識，那么你沒(méi)有必要讓搜索引擎在休閑與運動(dòng)、健康與醫藥、藝術(shù)與人文等其他分類(lèi)中查找。你可以進(jìn)入“電腦與因特網(wǎng)”這一類(lèi)，選中“檢索此目錄下的網(wǎng)站”。然后再開(kāi)始搜索。

　　四、結束語(yǔ)

　　要完成一個(gè)有效的搜索，首先要確定要檢索的主題，選擇合適的檢索工具、抽取適當的關(guān)鍵詞。為避免可能出現搜索結果的冗余性，要盡可能限制查詢(xún)范圍，正確構造檢索式。同時(shí)要使用邏輯條件限制及模糊或精確查詢(xún)的功能保證能真正檢索到我們所需的網(wǎng)絡(luò )信息資源。（來(lái)源：《商情》雜志編選：）

本文轉載自:http://b2b.toocle.com/detail--5919151.html

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久