多媒體技術(shù)和Internet的發(fā)展給人們帶來(lái)巨大的多媒體信息海洋,并進(jìn)一步導致了超大型多媒體信息庫的產(chǎn)生,光憑關(guān)鍵詞是很難做到對多媒體信息的描述和檢索的,這就需要有一種針對多媒體的有效的檢索方式。如何有效的幫助人們快速、準確地找到所需要的多媒體信息,成了多媒體信息庫所要解決的核心問(wèn)題。
基于內容的信息檢索(Content-Based Retrival)是一種新的檢索技術(shù),是對多媒體對象的內容及上下文語(yǔ)義環(huán)境進(jìn)行檢索,如對圖像中的顏色、紋理,或視頻中的場(chǎng)景、片斷進(jìn)行分析和特征提取,并基于這些特征進(jìn)行相似性匹配。
基于內容的圖像檢索:
它是根據分析圖像的內容,提取其顏色、形狀、紋理,以及對象空間關(guān)系等信息,建立圖像的特征索引。目前有的圖像檢索系統有:
QBIC(Query By Image Content)是IBM Almaden研究中心開(kāi)發(fā)的第一個(gè)商用基于內容的圖像及視頻檢索系統,它提供了對靜止圖像及視頻信息基于內容的檢索手段,其系統結構及所用技術(shù)對后來(lái)的視頻檢索有深遠的影響;
由MIT的媒體實(shí)驗室開(kāi)發(fā)研制的Photobook,圖像在存儲時(shí)按人臉、形狀或紋理特性自動(dòng)分類(lèi),圖像根據類(lèi)別通過(guò)顯著(zhù)語(yǔ)義特征壓縮編碼;
美國哥倫比亞大學(xué)開(kāi)發(fā)的VisualSEEK圖像查詢(xún)系統,該系統的主要特點(diǎn)是用到了圖像區域的空間關(guān)系查詢(xún)和直接從壓縮數據中提取視覺(jué)特征。
EXCALIBUR技術(shù)公司開(kāi)發(fā)的retrieval ware系統;
Virage公司開(kāi)發(fā)的virage檢索系統能;
香港中央圖書(shū)館的多媒體信息系統(MMIS)是IBM和分包商ICO于1999年底開(kāi)始承建190萬(wàn)美元的數字圖書(shū)館項目,被認為是世界上最大且最復雜的“中文/英文”雙語(yǔ)圖書(shū)館服務(wù)之一,其采用的DB2 Text 和Image Extenders既支持文本查找,也支持圖片查找。
基于內容的視頻檢索:
基于內容的視頻信息檢索是當前多媒體數據庫發(fā)展的一個(gè)重要研究領(lǐng)域,它通過(guò)對非結構化的視頻數據進(jìn)行結構化分析和處理,采用視頻分割技術(shù),將連續的視頻流劃分為具有特定語(yǔ)義的視頻片段——鏡頭,作為檢索的基本單元,在此基礎上進(jìn)行代表幀(representative frame)的提取和動(dòng)態(tài)特征的提取,形成描述鏡頭的特征索引;依據鏡頭組織和特征索引,采用視頻聚類(lèi)等方法研究鏡頭之間的關(guān)系,把內容相近的鏡頭組合起來(lái),逐步縮小檢索范圍,直至查詢(xún)到所需的視頻數據。其中,視頻分割、代表幀和動(dòng)態(tài)特征提取是基于內容的視頻檢索的關(guān)鍵技術(shù)。目前相關(guān)的研究有:
MPEG-7標準稱(chēng)為“多媒體內容描述接口”(Multimedia Content Description Inteface) ,它是一種多媒體內容描述的標準,它定義了描述符、描述語(yǔ)言和描述方案,對多媒體信息進(jìn)行標準化的描述,實(shí)現快速有效的檢索;
JJACOB基于內容的視頻檢索系統,可進(jìn)行視頻自動(dòng)發(fā)段并從中抽取代表幀,并可按彩色及紋理特征以代表幀描述基于內容的檢索;
卡內基·梅隆大學(xué)的informedia數字視頻圖書(shū)館系統,結合語(yǔ)音識別、視頻分析和文本檢索技術(shù),支持2000小時(shí)的視頻廣播的檢索;實(shí)現全內容的、基于知識的查詢(xún)和檢索。
基于內容的音頻檢索:
基于內容的圖像檢索要提取顏色、紋理、形狀等特征,視頻檢索要提取關(guān)鍵幀特征,同樣要實(shí)現基于內容的音頻檢索,必須從音頻數據中提取聽(tīng)覺(jué)特征信息。音頻特征可以分為:聽(tīng)覺(jué)感知特征和聽(tīng)覺(jué)非感知特征(物理特性),聽(tīng)覺(jué)感知特征包括音量、音調、音強等。在語(yǔ)音識別方面,IBM的Via Voice已趨于成熟,另外劍橋大學(xué)的VMR系統,以及卡內基悔隆大學(xué)的Informedia都是很出色的音頻處理系統。在基于內容的音頻信息檢索方面,美國的Muscle fish公司推出了較為完整的原型系統,對音頻的檢索和分類(lèi)有較高的準確率。
基于內容的多媒體檢索是一個(gè)新興的研究領(lǐng)域,國內外都處于研究、探索階段。目前仍存在著(zhù)諸如算法處理速度慢、漏檢誤檢率高、檢索效果無(wú)評價(jià)標準、支持多種檢索手段缺少等問(wèn)題。但隨著(zhù)多媒體內容的增多和存儲技術(shù)的提高,對基于內容的多媒體檢索的需求將更加上升。