摘要:本文簡(jiǎn)述了搜索引擎的起源和發(fā)展,介紹了國內外的研究現狀,對其分類(lèi)、性能評測、關(guān)鍵技術(shù)等方面做了一定的討論,在此基礎上對其發(fā)展趨勢作了大膽的預測。
關(guān)鍵詞:搜索引擎;Web挖掘;信息檢索
Internet自誕生以來(lái)不斷成長(cháng),其內容不斷豐富,整個(gè)網(wǎng)絡(luò )逐漸堆積成一個(gè)前所未有的超大型信息庫。Internet作為一個(gè)信息平臺在人們的日常生活和工作中發(fā)揮著(zhù)越來(lái)越重要的作用,人們越來(lái)越多地通過(guò)Internet獲取信息。在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,網(wǎng)頁(yè)數量亦較少,因而信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò )用戶(hù)想找到所需的資料簡(jiǎn)直如同大海撈針,以至于迷失在信息的海洋中不知所措,出現了我們所說(shuō)的"信息豐富,知識貧乏"的奇怪現象。搜索引擎正是為了解決這個(gè)"迷航"問(wèn)題而出現的技術(shù)。
搜索引擎(Search Engine簡(jiǎn)稱(chēng)SE)是一個(gè)信息處理系統,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶(hù)提供檢索服務(wù),從而起到信息導航的目的,一般包括信息搜集、信息整理和用戶(hù)查詢(xún)三部分。從用戶(hù)的角度來(lái)看,它就是一個(gè)幫助人們進(jìn)行信息檢索的工具。
1. 發(fā)展回眸
現代意義上的搜索引擎的祖先,是1990年由美國蒙特利爾大學(xué)的學(xué)生 Alan Emtage等人發(fā)明的Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶(hù)必須輸入精確的文件名搜索,然后Archie會(huì )告訴用戶(hù)哪一個(gè)FTP地址可以下載該文件。
由于專(zhuān)門(mén)用于檢索信息的Robot程序像蜘蛛(spider)一樣在網(wǎng)絡(luò )間爬來(lái)爬去,因此,搜索引擎的Robot程序被稱(chēng)為spider(Spider FAQ)程序。世界上第一個(gè)Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規模。剛開(kāi)始它只用來(lái)統計互聯(lián)網(wǎng)上的服務(wù)器數量,后來(lái)則發(fā)展為也能夠捕獲網(wǎng)址(URL)。
真正意義上的搜索引擎出現于1994年7月。當時(shí)Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng )建了大家現在熟知的Lycos。同年4月,Stanford大學(xué)的兩名博士生,David Filo和美籍華人楊致遠(Jerry Yang)共同創(chuàng )辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心,Yahoo也被稱(chēng)為第一代搜索引擎。從此搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代。1998年9月,同樣是Stanford大學(xué)兩位博士生Larry Page和Sergey Brin在風(fēng)險投資公司的資助下,成功開(kāi)發(fā)了新一代搜索引擎——Google。它具有比Yahoo先前使用的技術(shù)更快、更準確搜索到所需信息的特點(diǎn),被視為第二代搜索引擎的代表?,F在Internet 上已有數千個(gè)能提供檢索服務(wù)的站點(diǎn),這些站點(diǎn)的搜索引擎在收錄的范圍、內容、檢索方法上都各有不同,采用的技術(shù)也各具特色。比較著(zhù)名的有Google,Yahoo,AltaVista,Dogpile,百度等。
目前,搜索引擎的研究、開(kāi)發(fā)十分活躍,各大搜索引擎公司都在投巨資研制搜索引擎系統,同時(shí)也不斷地涌現出新的具有鮮明特色的搜索引擎產(chǎn)品,搜索引擎已經(jīng)成為信息領(lǐng)域的產(chǎn)業(yè)之一。它要用到了信息檢索、人工智能、數據庫、數據挖掘、自然語(yǔ)言理解等領(lǐng)域的理論和技術(shù),具有綜合性和挑戰性。又由于搜索引擎有大量的用戶(hù),由此衍射出許多商機,具有很好的經(jīng)濟價(jià)值。根據iResearch艾瑞市場(chǎng)咨詢(xún)《2003年中國搜索引擎研究報告》的研究數據顯示,中國的搜索引擎市場(chǎng)2003年達到了5.2億元人民幣,比2002年的2.3億一年增長(cháng)了127%,顯示了搜索引擎市場(chǎng)的強勁增長(cháng);雅虎表示未來(lái)5年全球搜索市場(chǎng)將由今年的30億美元增長(cháng)至110億美元。搜索引擎作為連接互聯(lián)網(wǎng)的一座橋梁,越來(lái)越受到人們的重視,亦引起了世界各國計算機科學(xué)界、信息產(chǎn)業(yè)界和商界的高度關(guān)注,已投入了不少的人力、物力,也取得了不俗的成績(jì)。
2. 分類(lèi)
搜索引擎依其所用技術(shù)原理,主要可以分為以下三類(lèi):
2.1. 目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類(lèi)框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類(lèi)搜索引擎因為加入了人的智能,所以信息準確、導航質(zhì)量高,缺點(diǎn)是需要人工介入、維護量大、信息量少、信息更新不及時(shí)。典型代表是:Yahoo(現已采用Robot技術(shù))、LookSmart、Open Directory等。
2.2. 基于Robot搜索引擎:基于Robot 的搜索引擎多提供對全文的檢索,有時(shí)也叫做全文搜索引擎(Full Text)。通過(guò)Robot程序從互聯(lián)網(wǎng)上搜集信息而建立索引數據庫,檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列順序將結果返回給用戶(hù)。這類(lèi)搜索引擎的代表是:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;國內代表為:百度(Baidu),"天網(wǎng)"、OpenFind等。
2.3. 元搜索引擎:這類(lèi)搜索引擎沒(méi)有自己的數據庫,而是將用戶(hù)的查詢(xún)請求同時(shí)向多個(gè)搜索引擎遞交,將返回的結果進(jìn)行去重、排序等處理后,作為自己的結果返回給用戶(hù)。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類(lèi)搜索引擎的優(yōu)點(diǎn)是返回結果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶(hù)需要做更多的篩選。著(zhù)名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。
除上述三大類(lèi)引擎外,還有以下幾種非主流形式:集合式搜索引擎、門(mén)戶(hù)搜索引擎:如AOL Search、MSN Search等、免費鏈接列表(Free For All Links,簡(jiǎn)稱(chēng)FFA)等。
3. 性能指標
搜索引擎是一種互聯(lián)網(wǎng)信息檢索工具,因此對其性能評價(jià)可以參考傳統型文獻檢索工具的質(zhì)量評價(jià)標準,結合搜索引擎在信息組織加工及檢索服務(wù)提供方式等內容進(jìn)行;又因為它直接跟蹤網(wǎng)絡(luò )信息并面向網(wǎng)絡(luò )信息用戶(hù),對它的評價(jià)因該立足于用戶(hù)的利益立場(chǎng)。通俗地講,能令大多數網(wǎng)絡(luò )用戶(hù)滿(mǎn)意的搜索引擎就是一個(gè)好的搜索引擎。
通常情況下,我們可以從以下幾個(gè)方面來(lái)衡量一個(gè)搜索引擎的性能:
3.1. 召回率(Recall):又稱(chēng)查全率,指搜索引擎提供的檢索結果中相關(guān)信息文檔數與網(wǎng)絡(luò )信息中存在的相關(guān)信息文檔數之比, 因檢索結果是在對檢索需求與搜索引擎的索引數據庫中的文檔進(jìn)行匹配后的文檔集合, 這一指標也是搜索引擎對網(wǎng)絡(luò )信息覆蓋率的真實(shí)反映。
3.2. 精度(Precision):又稱(chēng)查準率,是搜索引擎提供的檢索結果與用戶(hù)信息需求的匹配程度, 也是檢索結果中有效信息的文檔數與搜索引擎提供的全部文檔數之比。
3.3. 檢索速度:又稱(chēng)響應時(shí)間,檢索速度一般而言取決于兩個(gè)因素, 即與帶寬有關(guān)的網(wǎng)絡(luò )速度及搜索引擎本身的速度, 只有在二者均獲得可靠的技術(shù)支持的情況下, 才能保證理想的檢索速度。
對于一個(gè)檢索系統來(lái)講,召回率和精度很難做到兩全其美:召回率高時(shí),精度低;精度高時(shí),召回率低。對于搜索引擎系統來(lái)講,因為沒(méi)有一個(gè)搜索引擎系統能夠覆蓋所有的網(wǎng)絡(luò )資源,所以召回率很難計算。目前的搜索引擎系統都非常關(guān)心精度。對于上面的衡量方法,有其不足之處,還有其他方面的因素沒(méi)能考慮,在文獻[7]中以用戶(hù)為導向運用層次分析法建立一個(gè)分析模型,文獻[8]中提出了一些較好的衡量方法。影響一個(gè)搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢(xún)的表示方法、評價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機制。
另外,我們可以從對搜索引擎的功能要求角度對它進(jìn)行評價(jià)。在筆者看來(lái),一個(gè)理想的搜索引擎系統應該具備以下功能要求:
① 涵蓋較多的互聯(lián)網(wǎng)資源,資源更新周期不是很長(cháng),對于某些特殊信息可以實(shí)時(shí)更新,這些是查全率的保障之一。
② 具備盡可能多的可選擇功能,如資源類(lèi)型(網(wǎng)站、網(wǎng)頁(yè)、新聞、軟件、FTP、MP3、Flash、圖像、影視等)選擇、等待時(shí)間控制、返回結果數量控制、結果時(shí)段選擇、過(guò)濾功能選擇、結果顯示方式選擇等。
③ 強大的檢索請求處理功能(如支持邏輯匹配檢索、短語(yǔ)檢索、自然語(yǔ)言檢索等)。
④ 詳盡全面的檢索結果信息描述(如網(wǎng)頁(yè)名稱(chēng)、URL、文摘、結果與用戶(hù)檢索需求的相關(guān)度等)。
⑤ 支持多種語(yǔ)言檢索,比如提供中英文搜索等。
⑥ 可對結果進(jìn)行自動(dòng)分類(lèi),如按照域名、國別、資源類(lèi)型、區域等進(jìn)行分類(lèi)整理。
⑦ 可以針對不同用戶(hù)提供個(gè)性化服務(wù)。
4. 原理和關(guān)鍵技術(shù)
當今搜索引擎的主流是基于Robot的網(wǎng)頁(yè)搜索系統,本文主要敘述這方面的技術(shù)。搜索引擎的原理,可以看作三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè) → 建立索引數據庫 → 在索引數據庫中搜索排序。
① 從互聯(lián)網(wǎng)上發(fā)現、搜集有用網(wǎng)頁(yè)信息
利用高性能的Spider程序去自動(dòng)地在互聯(lián)網(wǎng)中搜索信息。一個(gè)典型的"網(wǎng)洛蜘蛛"工作的方式,是查看一個(gè)頁(yè)面,并從中找到相關(guān)信息,然后它再從該頁(yè)面的所有URL中出發(fā),爬行到相關(guān)頁(yè)面,重復這過(guò)程,直到把爬過(guò)的所有網(wǎng)頁(yè)都收集回來(lái)。搜索引擎的Spider一般要定期重新訪(fǎng)問(wèn)所有網(wǎng)頁(yè),更新網(wǎng)頁(yè)索引數據庫,以反映出網(wǎng)頁(yè)文字的更新情況。
② 將收集到的信息進(jìn)行分類(lèi)整理,建立索引數據庫
由分析索引系統程序對收集回來(lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據一定的相關(guān)度算法進(jìn)行大量復雜計算,得到每一個(gè)網(wǎng)頁(yè)針對頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數據庫。
③ 用戶(hù)檢索過(guò)程
當用戶(hù)輸入關(guān)鍵詞搜索后,由搜索系統程序從網(wǎng)頁(yè)索引數據庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因為所有相關(guān)網(wǎng)頁(yè)針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現成的相關(guān)度數值排序,相關(guān)度越高,排名越靠前。最后,由頁(yè)面生成系統將搜索結果的鏈接地址和頁(yè)面內容摘要等內容組織起來(lái)返回給用戶(hù)。
上面簡(jiǎn)述了搜索引擎的工作原理,從這里不難看出搜索引擎的基本構成:搜索器、索引器、檢索器和用戶(hù)接口等。下面介紹幾種與之相關(guān)的關(guān)鍵技術(shù):
① Robot技術(shù),網(wǎng)絡(luò )機器人Robot(通常也稱(chēng)為網(wǎng)絡(luò )蜘蛛Spider、爬行者Crawler等)可以用在針對互聯(lián)網(wǎng)的數據統計、數據搜索、鏈接維護等方面。搜索引擎中的網(wǎng)絡(luò )機器人主要完成兩個(gè)功能,即分析、獲取互聯(lián)網(wǎng)的鏈接和讀取各鏈接所對應的網(wǎng)頁(yè)內容。Robot 從一個(gè)事先制定好的URLs列表出發(fā), 在訪(fǎng)問(wèn)了一個(gè)網(wǎng)頁(yè)后,會(huì )對它進(jìn)行分析,提取出新的URLs ,將之加入到訪(fǎng)問(wèn)列表中,如此遞歸地訪(fǎng)問(wèn)Web。Robot 設計是否合理將直接影響它訪(fǎng)問(wèn)Web 的效率,影響搜索數據庫的質(zhì)量。Robot的實(shí)現常用分布式、并行計算技術(shù),以提高信息發(fā)現和更新的速度。
② 索引技術(shù),Robot采集回來(lái)的文檔信息要被用來(lái)建立索引數據庫。索引的建立方法對搜索引擎來(lái)說(shuō)具有很大的影響,好的索引能提高搜索引擎系統運行的效率以及檢索結果的質(zhì)量??梢哉f(shuō)索引技術(shù)是搜索引擎中的核心技術(shù), 是搜索技術(shù)高低的集中體現。其中很重要的是文本分析技術(shù),這是索引器的主要支撐技術(shù)。文本分析所研究的內容包括提取索引項、自動(dòng)摘要、自動(dòng)分類(lèi)器、文本聚類(lèi)等。文本分析所依據的主要是文本中所包含的詞匯、超文本標記和超鏈接。
③ 信息檢索和排序技術(shù),搜索的最終目的是獲取需要的信息,在大量的信息中進(jìn)行查找是很討厭的一件事情,很難做到令人滿(mǎn)意。即使是在現實(shí)生活中,面對一大堆自己辛辛苦苦找來(lái)的資料時(shí),你往往會(huì )發(fā)現并不是所有的資料都有用。目前搜索引擎所實(shí)現的只是通常意義上的相關(guān)信息搜索。常用的相關(guān)信息查找方法有相似性函數法、歸類(lèi)(組)法等。在這一研究領(lǐng)域有兩種比較有影響的方法,就是Page Rank方法和Authority and Hub方法。這兩種方法都是利用頁(yè)面中的鏈接來(lái)對文檔的重要性進(jìn)行判斷。
④ 用戶(hù)接口設計,用戶(hù)接口的作用是輸入用戶(hù)查詢(xún)、顯示查詢(xún)結果、提供用戶(hù)相關(guān)性反饋機制。主要的目的是方便用戶(hù)使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶(hù)接口的設計和實(shí)現使用人機交互的理論和方法,以充分適應人類(lèi)的思維習慣。一般搜索引擎都提供基本檢索和高級檢索兩個(gè)接口?;緳z索接口只提供用戶(hù)輸入關(guān)鍵字的文本框,有的可以在這里輸入一些復雜的查詢(xún)表達式,不過(guò)這個(gè)只適用于那些搜索專(zhuān)家;高級檢索接口可以讓用戶(hù)對查詢(xún)進(jìn)行限制,如邏輯運算(與、或、非)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現位置(如標題、內容)、信息時(shí)間、長(cháng)度等等。
5. 發(fā)展趨勢
經(jīng)過(guò)了多年的發(fā)展之后,現在的搜索引擎功能越來(lái)越強大,提供的服務(wù)也越來(lái)越全面據。研究者統計, 目前互聯(lián)網(wǎng)上的搜索引擎已達數千種, 僅中文搜索引擎就達上百種,可謂是百花爭艷。然而隨著(zhù)WWW信息的急劇增加,目前的搜索引擎存在界面不夠友好、響應時(shí)間長(cháng)、死鏈接過(guò)多、結果中重復信息及不相關(guān)信息過(guò)多等問(wèn)題,難以滿(mǎn)足人們的各種信息需求,搜索引擎將向智能化、個(gè)性化、精確化、專(zhuān)業(yè)化、交叉語(yǔ)言檢索、多媒體檢索等適應不同用戶(hù)需求的方向發(fā)展。
5.1. 智能化的搜索引擎:它是未來(lái)搜索引擎的發(fā)展方向,被稱(chēng)作是"第三代搜索引擎",在這方面中國搜索走在了前面,已經(jīng)推出了此類(lèi)搜索引擎供用戶(hù)試用。搜索引擎的智能化體現在兩方面:一是對搜索請求的理解,二是對網(wǎng)頁(yè)內容的分析。它利用智能代理技術(shù)對用戶(hù)的查詢(xún)計劃、意圖、興趣方向進(jìn)行推理,自動(dòng)進(jìn)行信息搜集過(guò)濾,自動(dòng)地將用戶(hù)感興趣的、對用戶(hù)有用的信息提交給用戶(hù)。這其中也包含了對服務(wù)多項化、個(gè)性化,結果精確化,交叉語(yǔ)言檢索等方面的功能。
5.2. 重視查詢(xún)結果的精度,提高檢索的有效性:解決查詢(xún)結果過(guò)多的現象目前有以下幾種方法:a) 構建基于內容的搜索引擎?;趦热莸乃阉鞑皇歉鶕中?,而是試圖理解用戶(hù)的請求,同時(shí)根據文檔的內容選出符合用戶(hù)要求的文檔。即通過(guò)各種方法獲得用戶(hù)沒(méi)有在查詢(xún)語(yǔ)句中表達出來(lái)的真正用途,實(shí)現自然語(yǔ)言的智能查詢(xún)功能。當前比較成熟的解決方案是依靠語(yǔ)義網(wǎng)絡(luò )、漢語(yǔ)分詞、句法分析、處理同義詞等中文信息處理技術(shù)最大程度地了解用戶(hù)需求。b) 將用戶(hù)提問(wèn)轉化為系統已知的問(wèn)題,然后對已知問(wèn)題進(jìn)行解答,以求降低對自然語(yǔ)言理解技術(shù)的依賴(lài)性。c) 用正文分類(lèi)技術(shù)將結果分類(lèi),使用可視化技術(shù)顯示分類(lèi)結構,用戶(hù)可以只瀏覽自己感興趣的類(lèi)別。d) 進(jìn)行站點(diǎn)類(lèi)聚或內容類(lèi)聚,減少信息的總量。e)讓用戶(hù)對返回結果進(jìn)行選擇,進(jìn)行二次查詢(xún)是一種非常有效的手段。
5.3. 實(shí)現交叉語(yǔ)言的檢索:搜索引擎對多種語(yǔ)言的數據庫進(jìn)行交叉語(yǔ)言信息檢索,返回能夠回答用戶(hù)問(wèn)題的所有語(yǔ)言的文檔。若配上機器翻譯,就可使返回結果以用戶(hù)熟悉的語(yǔ)言顯示。雖然該技術(shù)目前還處于初步研究階段,其難點(diǎn)在于語(yǔ)言之間在表達方式和語(yǔ)義對應上的不確定性,但其確是發(fā)展方向。
5.4. 提供對自然語(yǔ)言檢索的支持:為了提高搜索引擎對用戶(hù)檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢(xún)的缺點(diǎn),現在已經(jīng)出現了自然語(yǔ)言智能答詢(xún)。如Google有專(zhuān)用于回答問(wèn)題的Google Answer,微軟有AnswerBot等。用戶(hù)可以輸入簡(jiǎn)單的疑問(wèn)句,比如"how can kill virus of computer?"。搜索引擎在對提問(wèn)進(jìn)行結構和內容的分析之后,或直接給出提問(wèn)的答案,或引導用戶(hù)從幾個(gè)可選擇的問(wèn)題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢在于,一是使網(wǎng)絡(luò )交流更加人性化,二是使查詢(xún)變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢(xún),多半人會(huì )用"virus"這個(gè)詞來(lái)檢索,結果中必然會(huì )包括各類(lèi)病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無(wú)效信息,而用"how can kill virus of computer?",搜索引擎會(huì )將怎樣殺病毒的信息提供給用戶(hù),提高了檢索效率。
5.5. 多媒體搜索引擎:網(wǎng)絡(luò )資源豐富多彩,具有很多類(lèi)型的信息,用戶(hù)需要的信息也不完全是網(wǎng)頁(yè)的形式,從用戶(hù)的角度來(lái)看,必然要求搜索引擎能夠覆蓋更多的網(wǎng)絡(luò )資源?,F在有很多搜索引擎已經(jīng)提供了網(wǎng)頁(yè)、新聞、圖片、音樂(lè )等資源搜索,當然范圍還可以更廣,再如可以搜索新聞組、軟件、FTP、Flash、論文等等。
5.6. 專(zhuān)業(yè)化搜索引擎:是為了專(zhuān)門(mén)收錄某一行業(yè)、某一學(xué)科、某一主題和某一地區的信息而建立,非常實(shí)用,如有商務(wù)查詢(xún)、企業(yè)查詢(xún)、人名查詢(xún)、電子郵件地址查詢(xún)和招聘信息查詢(xún)等等。這種專(zhuān)業(yè)化的搜索引擎是將來(lái)的方向之一。
5.7. 桌面型搜索引擎:這類(lèi)引擎實(shí)際上是一個(gè)軟件,下載安裝后放在電腦桌面上,用戶(hù)不用頻繁打開(kāi)瀏覽器,而是直接通過(guò)只要通過(guò)它就能完全實(shí)現搜索過(guò)程,更甚者它可以同時(shí)搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。它完全越過(guò)傳統的搜索模式,越過(guò)瀏覽器,真正實(shí)現讓搜索無(wú)處不在。搜索引擎脫離瀏覽器是一個(gè)發(fā)展趨勢,Google、Yahoo等都有計劃地推出屬于自己的桌面型搜索軟件,而微軟同樣打算把搜索設計到桌面上。國內有中國搜索推出的"網(wǎng)絡(luò )豬"軟件可用。
此外還有一些其它值得注意的技術(shù)發(fā)展,如元搜索引擎,移動(dòng)代理和XML技術(shù),語(yǔ)音檢索技術(shù)等。隨著(zhù)技術(shù)的不斷發(fā)展進(jìn)步,搜索引擎將會(huì )成為一個(gè)人們網(wǎng)際遨游的好幫手。
6. 參考文獻
[1] 李曉明,劉建國 搜索引擎技術(shù)及趨勢
[2] 搜索引擎直通車(chē) 搜索引擎發(fā)展史 http://www.se-express.com/about/about.htm
[3] 博客中國 前生今世——搜索引擎發(fā)展史http://www.blogchina.com/new/source/130.html
[4] 莊毅,黎浩宏 引擎技術(shù)現狀及發(fā)展動(dòng)向 計算機時(shí)代 2002年第8期
[5] 王紅梅,朱洪秀,王凌 對中文搜索引擎未來(lái)發(fā)展的探討 東北電力學(xué)院學(xué)報2001年12月第21卷第4期
[6] 張曉剛,李明樹(shù) 智能搜索引擎技術(shù)的研究與發(fā)展 計算機工程與應用 2001年第24期
[7] 馬彪,李恒 搜索引擎的性能評價(jià) 新世紀圖書(shū)館 2003年第6期
[8] 鳳元杰,劉正春,王堅毅 搜索引擎主要性能評價(jià)指標體系研究 情報學(xué)報 2004年2月第23卷第1期
[9] 凌美秀 關(guān)于搜索引擎當前存在的主要問(wèn)題及其發(fā)展趨勢的探討 高校圖書(shū)館工作 2001年第5期第21卷
[10] 蔡瑞平,鐘哲釋 搜索引擎的檢索功能特征及技巧 圖書(shū)與情報2003年4月
[11] 彭洪匯,林作銓 Internet上的搜索引擎和元搜索引擎 計算機科學(xué)2002 Vol. 29 No. 9
[12] 李遠明 試析搜索引擎技術(shù)及其未來(lái)發(fā)展趨勢 情報檢索 2002 No.7
[13] 盧世光,丁方忠 搜索引擎使用技術(shù)回顧和發(fā)展趨勢探討 廣東通信技術(shù) 2002 Vol.19 No.5
聯(lián)系客服