薛洪明
(鹽城師范學(xué)院 江蘇鹽城 224002)
摘 要 搜索引擎是進(jìn)行Internet信息獲取的最常用方法之一。本文簡(jiǎn)述了搜索引擎的分類(lèi)及運作機理、搜索語(yǔ)法和操作規則,比較分析常用搜索引擎的性能和技術(shù)特點(diǎn)。探討了利用搜索引擎進(jìn)行高速、高效、高質(zhì)地Internet信息獲取的方法和策略,并對其發(fā)展提出了預見(jiàn)和建議。
關(guān)鍵詞 搜索引擎、Internet、信息獲取
0 引言
Internet正以前所未有的態(tài)勢改變著(zhù)整個(gè)世界,現已成為人類(lèi)有史以來(lái)資源最多、品種最全、規模最大的信息庫,其信息來(lái)源豐富、分布廣泛,各種類(lèi)型信息資源異構地分布于網(wǎng)絡(luò )空間中,如果不能使龐雜的信息有序化,就很難有效獲取。如何準確有效地從Internet上獲取信息,就顯得十分迫切和重要。
搜索引擎(Search Engine)就是這一時(shí)代需求的產(chǎn)物,它是收集、整理Internet信息資源并按一定規則加以組織,提供人們按相應的規則提取信息線(xiàn)索,并直接鏈接相關(guān)信息源的Internet信息獲取工具。這其中包括了信息收集、信息組織、信息搜索、信息回饋四個(gè)過(guò)程。
1 分類(lèi)及運作機理
盡管目前搜索引擎數以千計,但根據其基于的運作機理和提交服務(wù)的方式,主要可分為基于Directory的、基于Robot的和基于Meta的三大類(lèi)型。
1.1 基于Directory的搜索引擎(Directory-based Engine)
其數據庫依靠人工建立,專(zhuān)職人員在訪(fǎng)問(wèn)某個(gè)Web站點(diǎn)后將其描述和URL(Uniform Resource Locator,統一資源定位器),根據站點(diǎn)內容和性質(zhì)將其歸入預先分好的類(lèi)別。同時(shí)也接受用戶(hù)直接提交的站點(diǎn)和描述,經(jīng)認可后加入其數據庫。這類(lèi)引擎通常提供各類(lèi)站點(diǎn)網(wǎng)址、域名及其描述,并提供鏈接。其結構為樹(shù)形結構,在搜索主頁(yè)上提供最基本的大類(lèi)入口,用戶(hù)可一級一級地向下訪(fǎng)問(wèn),了解有關(guān)站點(diǎn)的基本情況。但現在,這類(lèi)引擎也提供關(guān)鍵詞搜索功能。其代表有Yahoo等。
這類(lèi)引擎需要經(jīng)過(guò)一個(gè)長(cháng)期積累過(guò)程,才能達到一定的信息擁有量;而且其只在保存的站點(diǎn)或描述中進(jìn)行搜索,因此站點(diǎn)的動(dòng)態(tài)更新情況不能迅速反映到搜索結果中去;由于采用了人工方式,成本較高,維護比較困難。但由于其依靠人工來(lái)評價(jià)和分類(lèi)信息,因此搜索結果往往比從其他類(lèi)型引擎更具參考價(jià)值。
1.2 基于Robot的搜索引擎(Robot-based Engine)
Robot意為“機器人,遙控設備,自動(dòng)機械,機械般工作的人”。這類(lèi)引擎其數據庫依靠Robot(或相類(lèi)似的Spider、Worm、Crawler等)自動(dòng)建立,Robot不時(shí)對Internet進(jìn)行搜索,自動(dòng)訪(fǎng)問(wèn)并提取信息,運行結果立即加入其數據庫中,供用戶(hù)搜索使用。這類(lèi)引擎不僅提供網(wǎng)址,而且提供相關(guān)文檔信息,比較適合于獲取具體的Internet信息。其代表有AltaVista、Infoseek等。
這類(lèi)引擎一般是定期訪(fǎng)問(wèn)數據庫中以前收集的信息,并刷新索引,以迅速反映信息的更新情況,去除無(wú)效鏈接。索引在建立和更新時(shí),會(huì )給每個(gè)關(guān)鍵詞賦予一個(gè)相關(guān)值,其計算公式各個(gè)引擎并不完全相同,但都以關(guān)鍵詞出現位置和頻率為基本依據。相關(guān)值是搜索結果中記錄排序的主要出發(fā)點(diǎn),所以可以利用這個(gè)原理,在設計站點(diǎn)和網(wǎng)頁(yè)時(shí),使用一些相關(guān)技術(shù)讓其得到高相關(guān)值,以便排在前面,達到提高點(diǎn)擊率的目的。
上述兩種引擎有一共同特點(diǎn),就是都在本身獨立的數據庫中進(jìn)行搜索,故又統稱(chēng)為獨立式搜索引擎。
1.3 基于Meta的搜索引擎(Meta Search Engine),即元搜索引擎
這類(lèi)引擎可以有也可以沒(méi)有自己的數據庫,其工作流程分三步:搜索請求提交、搜索接口代理、搜索結果反饋。在用戶(hù)提交搜索請求后,這類(lèi)引擎就將其轉換成其他獨立式搜索引擎能夠接受的格式,并行或串行地訪(fǎng)問(wèn)它們,并將結果進(jìn)行相關(guān)處理(如刪除重復結果,校驗鏈接,按相關(guān)值排序等)后以整體統一的格式回饋給用戶(hù)。用戶(hù)可個(gè)性地設定調用其他引擎的數目、在各引擎的搜索時(shí)間和結果數量限制等。其代表有MetaCrawler、Profusion等。
這類(lèi)引擎除了可以按有無(wú)獨立的引擎數據庫分類(lèi)外,也可按調用其他引擎的方式分為并行、串行、并串結合等類(lèi)型;還可按用戶(hù)應用模式分為基于Web的免費型、可供免費下載的客戶(hù)端桌面應用型、可共享或授權使用的桌面應用型等,其中第一種最常見(jiàn)、使用最廣泛,后兩種的特點(diǎn)是用戶(hù)可將相應的搜索軟件下載至本地計算機上安裝,是具有Internet搜索功能的離線(xiàn)工具,因此用戶(hù)可更靈活方便地控制結果。
元搜索引擎多數只訪(fǎng)問(wèn)幾個(gè)主要的獨立式引擎,還有許多重量級的引擎(如HotBot等)被排除在外;在處理其他引擎返回結果時(shí),只提取每個(gè)引擎的前面數十條記錄;因為被調用的其他引擎在語(yǔ)法規則上差異較大,所以一般僅支持AND、OR、NOT等較簡(jiǎn)單的邏輯操作,不能發(fā)揮出各個(gè)獨立式引擎的高級性能。上述因素都直接影響了元引擎的搜索效果和質(zhì)量。
2 搜索語(yǔ)法和操作規則
想要利用好搜索引擎進(jìn)行高速、高效、高質(zhì)的Internet信息獲取,就必須了解掌握其搜索語(yǔ)法和操作規則。
2.1 布爾邏輯運算
包括AND、OR、NOT和()等,這是最基本、最常用的語(yǔ)法規則:
AND表示邏輯和,搜索結果中會(huì )包含所有的關(guān)鍵詞。
OR表示邏輯或,搜索結果中會(huì )包含至少一個(gè)關(guān)鍵詞。
NOT表示邏輯非,搜索結果中會(huì )排除NOT之后的關(guān)鍵詞。例如:搜索Internet NOT Intranet,則結果中就只包含Internet,而不包含Intranet。
()表示搜索式優(yōu)先級,作用和數學(xué)中的()相似。例如:搜索知識經(jīng)濟或信息經(jīng)濟可輸入(知識OR信息)AND經(jīng)濟。
2.2 其他簡(jiǎn)單而又較為常用的語(yǔ)法規則
+(加號),作用與AND類(lèi)似,但+號與關(guān)鍵詞之間不能有空格。
-(減號),作用與NOT類(lèi)似,但-號與關(guān)鍵詞之間不能有空格。
,(逗號),作用近似于OR,但與OR的區別的是:搜索結果中包含的關(guān)鍵詞越多,排列位置越靠前。例如:搜索計算機,Internet,信息,那么同時(shí)包含這三個(gè)關(guān)鍵詞的信息就出現在結果的最前面。
(空格),作用類(lèi)似于A(yíng)ND。
""(引號),搜索引擎會(huì )將""中的關(guān)鍵詞或其組合作為一個(gè)整體性的短語(yǔ)進(jìn)行搜索。例如:搜索有關(guān)Web Database(Web數據庫)方面的信息,可輸入"Web Database",搜索引擎就把"Web Database"當作一個(gè)短語(yǔ)來(lái)搜索。如果不用"",就會(huì )搜索到既包含Web又包含Database的信息,而這其中當然有很多是你不需要的。
通配符,用戶(hù)可在詞的末尾加通配符來(lái)代替任意的字母組合,但通配符不能放在詞的開(kāi)始或中間。通配符可為“*、?、$、%”等,這視不同的引擎而定。例如:輸入Physi*可以代表開(kāi)頭字母為Physi的任意詞,搜索結果中就包含Physics(物理)、Physic(醫學(xué))等信息。
.(句號),作用與通配符正好相反,用于禁止關(guān)鍵詞的擴展。例如:輸入com.表示搜索結果中只能有com,而不能有諸如computer之類(lèi)的詞。
2.3 常用高級和特定的語(yǔ)法規則
near,可限定在一定區域范圍內同時(shí)出現的關(guān)鍵詞,這些關(guān)鍵詞可能并不相鄰、間隔越小的排列位置越靠前,其間隔用near/n控制,n為一具體數值,表示間隔最大不超過(guò)n個(gè)單詞。例如:A NEAR/10 B,即表示搜索關(guān)鍵詞A和B,并且A、B兩詞之間最多可有10個(gè)其他單詞。
adj,作用和near類(lèi)似,但規定了關(guān)鍵詞的詞序。例如:A ADJ B,即表示搜索關(guān)鍵詞A和B,并且詞A一定出現在詞B之前。
<in>,可限定關(guān)鍵詞出現的范圍。例如:Network<in>title,表示只有在標題中出現Network的信息才列入結果。
字母t、u,也用來(lái)限定關(guān)鍵詞出現的范圍。t加在關(guān)鍵詞前,只搜索網(wǎng)頁(yè)標題;u加在關(guān)鍵詞前,只搜索站點(diǎn)URL。
需指出的是,以上只是一般性、通用性較強的語(yǔ)法規則,具體到各個(gè)搜索引擎,會(huì )有所不同。
3 部分重要的搜索引擎與對比分析
3.1 部分英文搜索引擎
AltaVista(
http://www.altavista.com),最優(yōu)秀的引擎之一,信息豐富、更新很快,搜索性能高。其對信息選擇優(yōu)化不夠,無(wú)關(guān)性大,但由于按關(guān)鍵詞相關(guān)值排序,最切中主題的總在最前,因此并不明顯地影響使用。
Yahoo(
http://www.yahoo.com),Internet上第一個(gè)也是目前最為著(zhù)名的基于directory的引擎。它已開(kāi)發(fā)很長(cháng)時(shí)間,質(zhì)量較高,提供信息準確,但信息量不夠全面。Yahoo現在也提供關(guān)鍵詞搜索功能,My Yahoo的個(gè)性化服務(wù),受到廣泛重視。
HotBot(
http://www.hotbot.com),一個(gè)重量級的引擎,Internet上第一個(gè)基于Robot的引擎,搜索速度快,結果相關(guān)性好。支持目錄和關(guān)鍵詞兩種搜索方式。
Infoseek(
http://www.infoseek.com),速度快、使用方便??蛇M(jìn)行關(guān)鍵詞動(dòng)態(tài)全文檢索。Infoseek只免費提供前100條信息,但由于其查準率高,100條信息對于普通用戶(hù)來(lái)講已足夠了。
Excite(
http://www.excite.com),較適合個(gè)人愛(ài)好定制和使用,可進(jìn)行基于關(guān)鍵詞的概念搜索,即同時(shí)搜索相關(guān)概念的信息。搜索表達式輸入方便,但對字母大小寫(xiě)過(guò)于敏感。
MetaCrawler(
http://www.webcrawler.com),元搜索引擎中的代表,除支持調用12個(gè)其他獨立式引擎外,本身也提供目錄服務(wù)。搜索模式多,能較好地支持高級和特定搜索功能,個(gè)性化服務(wù)好。其他較為著(zhù)名、性能較高的元搜索引擎還有:ProFusion(
http://www.profusion.com)、Inference Find(
http://www.infind.com)、MetaFind(
http://www.metafind.com)、ByteSearch(
http://www.bytesearch.com)等。
3.2 部分中文搜索引擎
Yahoo中文(
http://www.yahoo.com.cn),是Yahoo本地化戰略的體現,提供中文關(guān)鍵詞搜索功能,并且很好地支持了簡(jiǎn)體中文(GB)和繁體中文(Big5)。
網(wǎng)易(
http://www.yeah.net),提供分類(lèi)瀏覽和關(guān)鍵詞搜索兩種方式,支持全文檢索。反饋信息較為全面詳細。用戶(hù)可將其提供的原代碼,放在自己的網(wǎng)頁(yè)中,這樣就可以更方便地隨時(shí)進(jìn)行信息獲取。
搜狐(
http://www.sohu.com),根據中國人的語(yǔ)言文化習慣將所有內容分為18個(gè)大類(lèi),各大類(lèi)下再進(jìn)行細分,層層相連,樹(shù)形結構完整清晰,但信息量不夠豐富。
悠游(
http://www.goyoyo.com.cn),一個(gè)高智能的基于Robot的中文搜索引擎,自動(dòng)轉換簡(jiǎn)繁體,提供分類(lèi)瀏覽方式,支持全文檢索,搜索結果詳細,并按相關(guān)值大小排序。易用性較好,用戶(hù)可按書(shū)寫(xiě)習慣輸入搜索請求,無(wú)需使用復雜的邏輯運算表達式。
天網(wǎng)(
http://pccms.pku.edu.cn),北京大學(xué)開(kāi)發(fā)的基于Robot的搜索引擎,信息來(lái)源于各大網(wǎng)絡(luò ),有中、英文兩種界面,提供多種高級搜索功能,搜索速度快,反饋信息豐富,搜索結果的可選擇性較好。
限于中文編碼的特殊性和設計上存在的局限性,中文搜索引擎在實(shí)際使用中反映出一定的不足:有的搜索信息范圍??;有的搜索功能不強;有的不支持多種中文編碼類(lèi)型。結果造成回饋信息完全性、準確性不是很高。
3.3 綜合比較分析
由于各個(gè)搜索引擎的搜索范圍、搜索技術(shù)、語(yǔ)法規則、搜索功能等不盡相同,因而在查全率、查準率和易用性等諸方面差別很大,因此有必要對它們進(jìn)行系統地比較分析研究,以達到方便使用的目的,并為其今后的發(fā)展提供借鑒和依據。目前,中文搜索引擎與國外搜索引擎的相比,在諸多方面尚有較大差距,所以本文只選取了國外幾個(gè)重要的搜索引擎進(jìn)行對比分析,結果見(jiàn)表1:
名 稱(chēng)
項 目
AltaVista
Yahoo
HotBot
Infoseek
Excite
MetaCrawler
搜索范圍性能
搜索范圍
W,U
W,U
W,U
W,U,G,E
W,U
W,U,G,F,E
信息容量
大
中
大
大
中
大
基于方式
Robot
Directory
Robot
Robot
Robot
Meta并行調用
分類(lèi)瀏覽
粗略
詳細
粗略
一般
粗略
一般
更新速度
快
一般
快
較快
快
不定
搜索速度
快
一般
快
最快
一般
一般
查 全 率
高
一般
較高
一般
高
一般
查 準 率
一般
高
較高
高
一般
較高
易 用 性
一般
好
較好
較好
較好
好
搜索結果
標準、壓縮、
詳細
標題、摘要
條目數可選
簡(jiǎn)單
條目數可選
標題、摘要
條目數可選
標題、摘要
條目10-50/頁(yè)
刪除重復信息
按來(lái)源列出
搜索語(yǔ)法規則
布爾邏輯
√
√
√
√
√
√
短句檢索
√
√
√
√
√
問(wèn)句檢索
√
√
√
√
√
位置邏輯
√
√
通 配 符
√
√
限定范圍
√
√
動(dòng)態(tài)分類(lèi)
√
√
√
特定搜索功能
主 機
√
√
√
√
文檔標題
√
√
√
√
域 名
√
圖 片
√
√
其他
大小寫(xiě)敏感
高級不支持+、-
支持多語(yǔ)種
支持多語(yǔ)種
規定許多禁用詞不能用于
檢索
可在搜索結果中進(jìn)行
二次檢索
大小寫(xiě)敏感
顯示最好的
40個(gè)站點(diǎn)
只提供被調用
引擎的
前10條記錄
注:1. 搜索范圍中的W指Web;U指Usenet;G指Gopher;E指Email;F指Ftp。
2. 有些搜索引擎雖有相同的功能,但具體使用中,其語(yǔ)法規則存在一定差異。
表1 部分重要的英文搜索引擎綜合比較
Chart1 The complex comparison among some important English search engine
4 高質(zhì)有效Internet信息獲取的策略
搜索引擎雖然提供了搜索的途徑和便利,但為了能更加快速有效地獲取Internet的信息,還必須掌握好搜索方法,不斷探索新的搜索策略。
4.1 明確搜索主題和目的
在進(jìn)行搜索之前,首先應該把主題分解成一系列的基本概念;在此基礎上,再進(jìn)一步為每個(gè)概念列出關(guān)鍵詞,有些概念可能只有—個(gè)關(guān)鍵詞,而有些則可能有多個(gè)關(guān)鍵詞,例如“計算機”的相關(guān)詞還有“電腦”等;最后,界定好各關(guān)鍵詞之間的邏輯關(guān)系。
4.2 根據搜索主題和目的選擇好搜索引擎
例如:搜索熱門(mén)主題,可選用AltaVista或Excite;搜索比較專(zhuān)深、信息源較少的主題,可選用Infoseek、AltaVista;要針對性了解Web站點(diǎn)與某個(gè)特殊主題的鏈接情況,就必須選用對站點(diǎn)有特定搜索功能的引擎。對搜索效果不滿(mǎn)意時(shí),應及時(shí)機動(dòng)地換用其他引擎。
4.3 靈活選擇好搜索模式
若主題更適合于采用專(zhuān)業(yè)數據庫,如Dialog等,應盡量利用這些數據庫,因其標引質(zhì)量和信息質(zhì)量顯然高于純自然語(yǔ)言的搜索引擎系統,查全率和查準率都要高得多;若主題屬于廣泛性信息,可采用目錄分類(lèi)瀏覽搜索;若是交叉性主題,則最好使用關(guān)鍵詞搜索;若是對搜索目標要求不高時(shí),可采用簡(jiǎn)單搜索以節省時(shí)間。
4.4 選擇處理好關(guān)鍵詞,使之發(fā)揮出最大的效能
搜索時(shí)使用的關(guān)鍵詞越豐富準確,邏輯組合得越合理恰當,搜索結果就會(huì )越接近目標。具體可參考下述方法:
使用相關(guān)程度高且含義較窄的關(guān)鍵詞,避免使用雖然與主題有關(guān),但是含義很廣的關(guān)鍵詞;
搜索多個(gè)關(guān)鍵詞時(shí),應明確它們之間的邏輯關(guān)系,合理使用各種邏輯符號來(lái)描述各詞之間的關(guān)系,而不是簡(jiǎn)單地只是用空格或逗號等分隔;
對關(guān)鍵詞進(jìn)行拼寫(xiě)檢查,拼寫(xiě)錯誤可能會(huì )導致結果面目無(wú)非;
注意關(guān)鍵詞字母的大小寫(xiě),有些搜索引擎對字母大小寫(xiě)很敏感,這時(shí)可以對某些關(guān)鍵詞采用全部大寫(xiě)或大小寫(xiě)混和的方式,以便讓符合大小寫(xiě)規則的信息顯示在搜索結果集的前面;
關(guān)鍵詞是一個(gè)短語(yǔ)時(shí),要用引號讓其形成一個(gè)短語(yǔ)后再搜索;
根據搜索引擎功能,特別限定關(guān)鍵詞的位置。例如:想了解有關(guān)對鹽城師范學(xué)院網(wǎng)址的鏈接信息,可以輸入link:yctc.edu.cn;
在搜索結果不理想時(shí),嘗試使用其它的關(guān)鍵詞。
4.5 巧妙靈活地使用語(yǔ)法規則,提高檢索的效果和質(zhì)量
大部分搜索引擎都設有如何使用的提示說(shuō)明,如help、tips等,應認真閱讀其內容。因為不同的引擎可能使用不同的語(yǔ)法規則,這樣可少走很多彎路。
4.6 當搜索結果中無(wú)關(guān)信息太多時(shí),可嘗試用以下方法處理
合理使用NOT布爾邏輯來(lái)排除無(wú)關(guān)信息;
有些引擎支持在上一次搜索結果中進(jìn)行再次搜索,這時(shí)可增加內涵更小的關(guān)鍵詞,進(jìn)行二次搜索;
如果搜索引擎支持,使用NAER位置邏輯來(lái)減少搜索結果;
如果搜索引擎支持,使用指定范圍的域搜索功能,如指定Web站點(diǎn)、地理區域等;
換用專(zhuān)業(yè)技術(shù)性更強的數據庫系統或其他搜索引擎。
4.7 當搜索結果中相關(guān)信息太少時(shí),可嘗試用以下方法處理
去掉不重要的關(guān)鍵詞;
使用含義更廣泛的關(guān)鍵詞、同義詞或者近義詞;
合理使用OR布爾邏輯來(lái)增加信息量;
換用其他搜索引擎,要知道Internet上沒(méi)有一個(gè)搜索引擎的數據庫是完全相同的;
使用元搜索引擎,以便能同時(shí)從多個(gè)其他引擎中搜索。
4.8 利用搜索引擎與手工搜索方式有機結合
做到上網(wǎng)前心中有數,上網(wǎng)時(shí)靈活機動(dòng),這樣才能節省上網(wǎng)時(shí)間、提高搜索時(shí)的效率并有效甄別出搜索結果的質(zhì)量。
4.9 平時(shí)注意積累和收藏
平時(shí)應注意積累和收藏有關(guān)信息獲取和信息發(fā)布的站點(diǎn)和網(wǎng)頁(yè),善于使用收藏夾或Bookmark;關(guān)注Internet技術(shù)和搜索引擎技術(shù)的最新發(fā)展,以便能及時(shí)、準確、靈活地使用這些新特性和特殊功能。
5 預見(jiàn)和建議
Internet上的信息量正呈幾何級地增長(cháng),用戶(hù)的需求又是如此的多樣化和個(gè)性化,這都對搜索引擎的發(fā)展提出了更高的要求。經(jīng)過(guò)了多年發(fā)展之后,現在的搜索引擎功能已越來(lái)越強大,提供的服務(wù)也越來(lái)越全面并更具個(gè)性化,其目標就是把自己發(fā)展成為用戶(hù)首選的Internet門(mén)戶(hù),而不僅僅是提供單純的搜索服務(wù)。
本文對搜索引擎的發(fā)展,提出如下的預見(jiàn)和建議,僅供參考:
5.1 基于Directory的搜索引擎仍將長(cháng)期居主導地位,而基于Robot的引擎則更多地以輔助的面貌出現
基于Directory的引擎與基于Robot的引擎相比更具優(yōu)越性,對用戶(hù)更具吸引力,因為用戶(hù)在信息獲取時(shí),往往更習慣于從專(zhuān)業(yè)學(xué)科分類(lèi)入手。Internet上眾多商業(yè)實(shí)踐也證明了基于Directory引擎的巨大成功,如Yahoo、搜狐等。但由于兩者各有特點(diǎn),無(wú)法相互替代,故兩者應優(yōu)勢互補,以提高智能化程度和搜索的效果和質(zhì)量?;贒irectory的引擎應注意采用Robot技術(shù),擴大信息覆蓋面,提高查全率;基于Robot的搜索引擎應注意配合Directory方法,加強信息的甄別和分類(lèi),提高查準率。
5.2 元搜索引擎發(fā)展方興未艾
用戶(hù)對這種整合型的搜索引擎很感興趣,因其可以很方便地一次輸入,多向、多層展開(kāi)搜索,而且搜索效果和質(zhì)量正越來(lái)越理想。元搜索引擎賴(lài)以發(fā)展的并行搜索技術(shù)也已得到了長(cháng)足的進(jìn)步。在性能上,元搜索引擎應有所突破,應支持各種高級的搜索功能,包括短語(yǔ)搜索、問(wèn)句搜索、截詞搜索、概念搜索、特定搜索等,應能根據被調用引擎的特點(diǎn)高智能地提交用戶(hù)搜索請求,從而更加有針對性地提供服務(wù)。
5.3 搜索技術(shù)越來(lái)越先進(jìn),搜索功能越來(lái)越強大
除繼續完善AND、OR、NOT等簡(jiǎn)單的布爾邏輯語(yǔ)法規則外,正有越來(lái)越多的搜索引擎提供位置搜索、域搜索、特定限制搜索等功能,用戶(hù)使用起來(lái)更加方便,搜索結果更加豐富準確。今后發(fā)展中,應重點(diǎn)采用最新的全文搜索技術(shù),開(kāi)發(fā)如主題詞、網(wǎng)站、主機、題名、作者、圖像、多媒體等多種方式并存、功能更強大的新一代全能型搜索引擎。
5.4 引擎數據的更新和搜索結果的去重
這正日益成為搜索引擎發(fā)展中不容忽視的問(wèn)題。各搜索引擎應加大對已有引擎數據庫進(jìn)行定期檢查的深度和廣度。在結果去重上,應對搜索結果中的鏡像站點(diǎn)、無(wú)效鏈接或指向其他鏈接的信息增強判斷力,合并相同的、去掉無(wú)效的或不相關(guān)的鏈接。另外,由于搜索引擎的索引深度不夠,造成同一信息點(diǎn)的鏈接過(guò)多,所以應在數據庫中對同一信息點(diǎn)避免做過(guò)多索引,在搜索結果中對同一信息點(diǎn)的過(guò)多鏈接應加以適當限制。
5.5 服務(wù)多樣化和個(gè)性化趨勢越來(lái)越明顯
多樣化和個(gè)性化服務(wù)是吸引用戶(hù)的重要手段,尤其對于商業(yè)搜索引擎更是如些。Internet時(shí)代是一個(gè)“注意力”經(jīng)濟時(shí)代,即誰(shuí)擁有的用戶(hù)數越多、訪(fǎng)問(wèn)率越高,誰(shuí)擁有的財富就越多。所以各大搜索引擎正逐步提供包括新聞、金融、天氣、購物、郵件等多方位服務(wù),并且允許用戶(hù)為自己定制個(gè)性化頁(yè)面。
5.6 易用性的改善和標準化建設
大多數用戶(hù)是普通用戶(hù),而且對眾多搜索引擎繁雜且各異的語(yǔ)法規則知之甚少,因此,搜索引擎發(fā)展過(guò)程中應充分考慮用戶(hù)的使用水平和需求特點(diǎn),在保證一定搜索質(zhì)量的前提下,提高易用性和標準化程度。搜索語(yǔ)法規則標準化、規范化可極大地降低成本,提高搜索質(zhì)量和用戶(hù)易用性。應做到對結果的處理更加靈活方便,用戶(hù)界面可進(jìn)一步優(yōu)化,應給予用戶(hù)更多處理結果的權限,這也是提供個(gè)性化服務(wù)的一個(gè)方面,用戶(hù)可根據需要和實(shí)際情況,方便地定制和管理自己的搜索結果集。
5.7 多種搜索模式協(xié)調發(fā)展
搜索引擎出于用戶(hù)易用性的考慮,所以采用了自然語(yǔ)言的模式。各種搜索引擎建立的數據庫也僅僅是排除了詞頻特高的詞之后的關(guān)鍵詞,類(lèi)目的設置也較粗,因此,造成查全率和查準率不高。今后,搜索引擎的發(fā)展中應著(zhù)力解決好這方面問(wèn)題。模糊搜索、精確搜索、自然語(yǔ)言搜索和主題搜索應協(xié)調發(fā)展。
5.8 大型綜合型搜索引擎與小型專(zhuān)業(yè)型搜索引擎的協(xié)調發(fā)展和開(kāi)發(fā)
大型綜合型引擎如Yahoo和A1taVista等需要大量的人力、物力和財力去支撐,這不是一般信息開(kāi)發(fā)機構所能做到的,且現在Internet上優(yōu)秀的大型綜合性引擎已有很多,我們在開(kāi)發(fā)利用時(shí),可充分利用現有的大型綜合型引擎,二次開(kāi)發(fā)建立符合自己需要的小型專(zhuān)業(yè)型引擎,來(lái)滿(mǎn)足本行業(yè)、本單位的需要。
5.9 進(jìn)一步向專(zhuān)、精、深方向發(fā)展,分布協(xié)作式開(kāi)發(fā)應引起足夠重視和應用
用戶(hù)在Internet上搜索信息時(shí),一方面苦于沒(méi)有專(zhuān)業(yè)的搜索工具,另一方面卻是任何搜索引擎又都可以使用,開(kāi)發(fā)新一代分布式專(zhuān)業(yè)搜索引擎就成為一個(gè)必然的重要發(fā)展方向。分布協(xié)作式開(kāi)發(fā),就是按照某種原則(如學(xué)科分類(lèi)、地理區域等)把Internet上的信息資源劃分成若干子資源,并分別建立搜索引擎,提供專(zhuān)業(yè)化、區域化的分布式服務(wù),各分布式搜索引擎間應加強相互間的協(xié)作,以達到信息資源共享的目的。
參考文獻
1 賈明心.互聯(lián)網(wǎng)信息資源及其利用.武漢水利電力大學(xué)學(xué)報,1999,(1):72~75
2 王繼成等.基于Internet的信息資源發(fā)現技術(shù)與實(shí)現.計算機研究與發(fā)展,1999,36(11):1369~1374
3 李名智.中文搜索引擎發(fā)展的現狀、問(wèn)題及對策.中國信息導報,1999,(2):34~37
4 王忠,周士波.Internet英文搜索引擎評析.情報學(xué)報,1999,18(5):394~399
5 孫麗.對建立網(wǎng)上中文檢索工具開(kāi)發(fā)過(guò)程的比較研究.中國科技信息研究所學(xué)位論文,1998,(6):53~58
Search Engine AND Internet information OBTAINMENT
Xue Hongming
(Yancheng Teachers College Yancheng 224002)
Abstract Search engine is one of the common-uesd methods to obtain information from Internet. This paper describes simply the classification, mechanism, search grammar and its operating principles of search engine. It compares and analyzes several common-used features of search engine and technology character. It goes further into realizing high speed, effectiveness and high quality of Internet information obtaining methods and strategies. This paper also presents some predictions and suggestions on the development of search engine.
Key words Search engine. Internet. Information obtainment.