計算機信息檢索
computer information retrieval
利用計算機系統有效存儲和快速查找的能力發(fā)展起來(lái)的一種計算機應用技術(shù)。它與信息的構造、分析、組織、存儲和傳播有關(guān)。計算機信息檢索系統是信息檢索所用的硬件資源、系統軟件和檢索軟件的總合。它能存儲大量的信息,并對信息條目(有特定邏輯含義的基本信息單位)進(jìn)行分類(lèi)、編目或編制索引。它可以根據用戶(hù)要求從已存儲的信息集合中抽取出特定的信息,并提供插入、修改和刪除某些信息的能力。計算機信息檢索系統可分為:一次性信息檢索系統和二次性信息檢索系統。前者適合于單個(gè)條目,即信息量不大而需要經(jīng)常修改的情況,如航空公司訂票系統。后者適合于信息條目本身信息量較大而不常修改的情況,如圖書(shū)或文獻檢索系統。
信息分析 目的是確定輸入系統的信息條目的格式和內容,并為建立索引作準備。一次信息檢索系統用于確定邏輯記錄的格式和記錄關(guān)鍵字,或記錄之間的關(guān)系;二次信息檢索系統用于濃縮原始信息,又稱(chēng)作標引。這相當于編制題錄或文摘,即找出標識原始信息的一組關(guān)鍵詞(稱(chēng)作主題詞或檢索詞),從而產(chǎn)生一部檢索詞典。在詞典中還可以規定同義詞、近義詞關(guān)系和各詞語(yǔ)之間的層次關(guān)系。標引工作的一部分可由計算機自動(dòng)完成。例如,利用題內關(guān)鍵詞索引或頻率統計法等技術(shù)從原始信息中抽取出關(guān)鍵詞。
信息存儲 目的是建立信息庫,以備檢索。為便于查找,需要合理組織信息條目,可以按文件形式組織,也可以按數據庫形式組織。信息檢索系統常用的文件組織形式有:順序文件、索引順序文件、倒排文件和聚類(lèi)文件,其中用得較多的是倒排文件和聚類(lèi)文件。
倒排文件對每個(gè)信息條目給出一個(gè)表示主要屬性的唯一的關(guān)鍵詞,稱(chēng)主關(guān)鍵詞。所有主關(guān)鍵詞和相應信息條目在文件中的地址構成一個(gè)索引,稱(chēng)為主索引。系統還給出允許用戶(hù)檢索的信息條目中的次要屬性,稱(chēng)為次關(guān)鍵詞。次關(guān)鍵詞不是唯一的。通過(guò)在每個(gè)次關(guān)鍵詞后面列出出現該屬性的信息條目的主關(guān)鍵詞而構成另一種形式的索引,稱(chēng)為次索引。從主關(guān)鍵詞查主索引可以找到信息條目。從次關(guān)鍵詞查次索引可以找到若干主關(guān)鍵詞,系統從主索引可以找出若干有關(guān)的信息條目。在一次檢索提問(wèn)中要查找的索引部分是很小的,所以倒排文件結構的查找時(shí)間較短。
聚類(lèi)文件是通過(guò)分析信息條目之間的相似性來(lái)組織的。檢索時(shí),系統查找出與提問(wèn)關(guān)鍵詞有相似性的聚集類(lèi),聚類(lèi)文件結構特別適合于文獻檢索的情況。
信息檢索 有脫機處理和聯(lián)機檢索兩種檢索方式。對于前者,用戶(hù)提交書(shū)面檢索要求,操作員按期打印出結果交付用戶(hù)。對于后者,用戶(hù)通過(guò)聯(lián)機終端打入檢索命令,系統當時(shí)給出回答。通過(guò)計算機網(wǎng)絡(luò ),用戶(hù)還可以進(jìn)行遠程脫機處理或遠程聯(lián)機檢索。
用戶(hù)與系統的接口是檢索語(yǔ)言,通過(guò)它提出檢索要求。檢索語(yǔ)言通常包括檢索命令和提問(wèn)邏輯表達式兩個(gè)部分。命令傳達用戶(hù)對系統的請示,邏輯表達式則提供執行該命令時(shí)的邏輯條件。邏輯表達式是邏輯運算符(與、或、非)、邏輯關(guān)系符和不同屬性的組合。系統提供一組程序來(lái)解釋和執行檢索語(yǔ)言。
系統維護 系統提供一組實(shí)用程序來(lái)進(jìn)行裝入信息的格式轉換、信息文件的初始化和故障后系統的重新運行等一般性服務(wù)。二次信息檢索系統還提供檢索詞典維護程序,以便能增加、刪除、修改和打印出檢索詞。
保密性和可靠性 計算機信息檢索系統的保密性是通過(guò)對信息條目的存取控制機構來(lái)實(shí)現的。對于以文件系統為基礎的信息檢索系統,存取控制一般只能在文件一級,即通過(guò)在打開(kāi)文件時(shí)核對口令來(lái)控制非授權的用戶(hù)檢索信息。對于以數據庫技術(shù)為基礎的檢索系統,存取控制可以在文件、記錄,甚至在信息條目中某信息項一級,既可以通過(guò)核對口令方式,也可以采取調用用戶(hù)編寫(xiě)的編碼、譯碼子程序的方式阻止非授權的用戶(hù)調用保密的信息。
計算機信息檢索系統的可靠性與計算機系統的可靠性密切相關(guān)。它依賴(lài)于計算機系統硬件的可靠性、操作系統的故障恢復機構、數據庫管理系統的恢復機構和應用軟件采取的故障處理措施。任何計算機信息檢索系統都不能保證信息不受到破壞,但是它必須具有從破壞中得以恢復的能力。
效能評價(jià) 計算機信息檢索系統的效能通常根據漏檢索、誤檢率、檢全率、檢準率和響應時(shí)間(對聯(lián)機檢索)等來(lái)衡量。關(guān)鍵詞本身錯誤或使用的查找算法不對會(huì )引起漏檢。關(guān)鍵詞的二義性會(huì )造成誤檢。檢全率和檢準率主要針對二次信息檢索系統而言的。檢全率指檢出的相關(guān)信息條目數與信息庫中的相關(guān)條目數之比。檢準率指檢出的相關(guān)條目數與所有檢出的條目數之比。這二者是相互制約的。一般認為一個(gè)系統檢全率在60%~70%,檢準率在40%~50%即能滿(mǎn)足需要。響應時(shí)間的快慢不僅與軟件設計的好壞有關(guān),而且與硬件的性能有關(guān)。
應用范圍 計算機信息檢索最初用于圖書(shū)、文獻檢索方面,后已用在軍事、工業(yè)、醫療、航空、政府機關(guān)等各個(gè)方面。有的只作信息檢索用,有的則是將信息檢索技術(shù)應用在其他綜合的管理信息系統之中,如用于輔助決策的軍事情報檢索系統;航空公司自動(dòng)訂票系統,醫療情報系統(包括病歷管理、預約登記、通知、病名檢索、病床管理等);旅館床位管理系統;檢索型的輔助設計系統等。此外,政府部門(mén)或企業(yè)的檔案管理、科研或工程項目管理、基本建設投資管理等都可應用信息檢索技術(shù)。
參考書(shū)目
張琪玉著(zhù):《情報檢索語(yǔ)言》,武漢大學(xué)出版社,武漢,1983。
F.W.Lancaster,Information Retrieval Systems—Characteristics,Testing,John Wiley,New York,1968.
聯(lián)系客服