indexing
通過(guò)對文獻的分析,選用確切的檢索標識(類(lèi)號、標題詞、敘詞、關(guān)鍵詞、人名、地名等),用以反映該文獻的內容的過(guò)程。主要指選用檢索語(yǔ)言詞或自然語(yǔ)言詞反映文獻主題內容,并以之作為檢索標識的過(guò)程。Indexing一詞,音譯為引得法或意譯為索引法,系指索引的編制技術(shù)與方法?,F代外語(yǔ)辭典中則說(shuō)明此詞有2解,一指索引法,一指標引。
標引是文獻加工中的重要環(huán)節。通過(guò)標引,文獻工作者賦予文獻以檢索標識,指明其內容特征的主題類(lèi)屬,而后用以配合書(shū)目信息編制出各種目錄和索引,或存儲于計算機內,以實(shí)現文獻的檢索。標引可按使用檢索語(yǔ)言的類(lèi)型區分,使用分類(lèi)檢索語(yǔ)言時(shí) ,稱(chēng)為分類(lèi)標引 ;使用主題檢索語(yǔ)言時(shí),稱(chēng)為主題標引。主題標引又分為受控標引與非控標引。受控標引指須由事先指定的敘詞表(主題詞表)中選用相應規范詞,對文獻進(jìn)行標引。非控標引又稱(chēng)自由詞標引,指不設規范詞表而由標引人員直接選用文獻內自然語(yǔ)言詞,對文獻進(jìn)行標引。標引的實(shí)質(zhì),是按文獻的內容特征對其進(jìn)行主題類(lèi)屬的劃分與區分。F.W.蘭開(kāi)斯特認為,主題標引包括兩個(gè)很不相同的智力工作步驟,即主題分析與用詞的轉換。所謂用詞的轉換,指選用相應的檢索語(yǔ)言規范詞標明文獻的主題類(lèi)屬。因此,標引是主題分析與用詞表達兩個(gè)步驟的結合。標引的質(zhì)量,對文獻的檢索效果有直接的決定性影響。衡量標引的質(zhì)量,一般采用兩個(gè)客觀(guān)上可比的指標,即:窮舉度與一致性。標引窮舉度,指標引時(shí)是否將文獻所討論的全部主題反映出來(lái);標引一致性,是指不同標引人員或同一標引人員在不同時(shí)期,對同一主題文獻標引時(shí),對其主題歸屬的一致程度。從文獻檢索的角度看,窮舉度高,有利于提高查全率,一致性強,則有利于提高查準率。由于計算機化檢索系統的建立和文獻數據庫的應用,出現了自動(dòng)標引。自動(dòng)標引是指利用計算機對文獻自動(dòng)進(jìn)行標引,以代替人的腦力勞動(dòng)。自動(dòng)標引有兩種形式:抽詞標引與賦詞標引。無(wú)論抽詞標引或賦詞標引,首先都需要將文獻轉化為機讀形式。抽詞標引以文獻內詞的出現頻率作為是否取為標引詞(用作檢索標識的檢索詞,亦稱(chēng)索引詞)的判據。設立頻率閾時(shí),一般以相對頻率代替絕對頻率效果較好。賦詞標引則須將詞表存入機內,作為計算機對比選用標引詞的依據。為了解決漢語(yǔ)文獻的自動(dòng)標引,須解決漢語(yǔ)中詞的自動(dòng)切分問(wèn)題。
對檔案內容進(jìn)行主題分析,賦予檢索標識的過(guò)程。