搜索引擎的技術(shù)發(fā)展趨勢
搜狐科技
搜索引擎經(jīng)過(guò)幾年的發(fā)展和摸索,越來(lái)越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。搜索引擎的最新技術(shù)發(fā)展包括以下幾個(gè)方面: 一、提高搜索引擎對用戶(hù)檢索提問(wèn)的理解 為了提高搜索引擎對用戶(hù)檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢(xún)的缺點(diǎn),現在已經(jīng)出現了自然語(yǔ)言智能答詢(xún)。用戶(hù)可以輸入簡(jiǎn)單的疑問(wèn)句,比如“how can kill virus of computer?”。搜索引擎在對提問(wèn)進(jìn)行結構和內容的分析之后,或直接給出提問(wèn)的答案,或引導用戶(hù)從幾個(gè)可選擇的問(wèn)題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢在于,一是使網(wǎng)絡(luò )交流更加人性化,二是使查詢(xún)變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢(xún),多半人會(huì )用“virus”這個(gè)詞來(lái)檢索,結果中必然會(huì )包括各類(lèi)病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無(wú)效信息,而用“how can kill virus of computer?”,搜索引擎會(huì )將怎樣殺病毒的信息提供給用戶(hù),提高了檢索效率。 二、對檢索結果進(jìn)行處理 1)基于鏈接評價(jià)的搜索引擎 基于鏈接評價(jià)的搜索引擎的優(yōu)秀代表是Googel(http://www.googel.com),它獨創(chuàng )的“鏈接評價(jià)體系”是基于這樣一種認識,一個(gè)網(wǎng)頁(yè)的重要性取決于它被其它網(wǎng)頁(yè)鏈接的數量,特別是一些已經(jīng)被認定是“重要”的網(wǎng)頁(yè)的鏈接數量。這種評價(jià)體制與《科技引文索引》的思路非常相似,但是由于互聯(lián)網(wǎng)是在一個(gè)商業(yè)化的環(huán)境中發(fā)展起來(lái)的,一個(gè)網(wǎng)站的被鏈接數量還與它的商業(yè)推廣有著(zhù)密切的聯(lián)系,因此這種評價(jià)體制在某種程度上缺乏客觀(guān)性。 2)基于訪(fǎng)問(wèn)大眾性的搜索引擎 基于訪(fǎng)問(wèn)大眾性的搜索引擎的代表是direct hit,它的基本理念是多數人選擇訪(fǎng)問(wèn)的網(wǎng)站就是最重要的網(wǎng)站。根據以前成千上萬(wàn)的網(wǎng)絡(luò )用戶(hù)在檢索結果中實(shí)際所挑選并訪(fǎng)問(wèn)的網(wǎng)站和他們在這些網(wǎng)站上花費的時(shí)間來(lái)統計確定有關(guān)網(wǎng)站的重要性排名,并以此來(lái)確定哪些網(wǎng)站最符合用戶(hù)的檢索要求。因此具有典型的趨眾性特點(diǎn)。這種評價(jià)體制與基于鏈接評價(jià)的搜索引擎有著(zhù)同樣的缺點(diǎn)。 3)去掉檢索結果中附加的多余信息 有調查指出,過(guò)多的附加信息加重了用戶(hù)的信息負擔,為了去掉這些過(guò)多的附加信息,可以采用用戶(hù)定制、內容過(guò)濾等檢索技術(shù)。 三、確定搜索引擎信息搜集范圍,提高搜索引擎的針對性 1)垂直主題搜索引擎 網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò )資源以十倍速的增長(cháng),一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò )信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專(zhuān)業(yè),使得檢索結果垃圾太多。這樣以來(lái),垂直主題的搜索引擎以其高度的目標化和專(zhuān)業(yè)化在各類(lèi)搜索引擎中占據了一系席之地,比如象股票、天氣、新聞等類(lèi)的搜索引擎,具有很高的針對性,用戶(hù)對查詢(xún)結果的滿(mǎn)意度較高。作者認為,垂直主題有著(zhù)極大的發(fā)展空間。 2)非www信息的搜索 提供FTP等類(lèi)信息的檢索 3)多媒體搜索引擎 多媒體檢索主要包括聲音、圖像的檢索。 四、將搜索引擎的技術(shù)開(kāi)發(fā)重點(diǎn)放在對檢索結果的處理上,提供更優(yōu)化的檢索結果 1)純凈搜索引擎 這類(lèi)搜索引擎沒(méi)有自己的信息采集系統,利用別人現有的索引數據庫,主要關(guān)注檢索的理念、技術(shù)和機制等。 2)元搜索引擎 現在出現了許多的搜索引擎,其收集信息的范圍、搜索機制、算法等都不同,用戶(hù)不得不去學(xué)習多個(gè)搜索引擎的用法。每個(gè)搜索引擎平均只能涉及到整個(gè)www資源的30-50%(search engine watch數據),這樣導致同一個(gè)搜索請求在不同搜索引擎中獲得的查詢(xún)結果的重復率不足34%,而每一個(gè)搜索引擎的查準率不到45%。 元搜索引擎(metasearch enging)是將用戶(hù)提交的檢索請求到多個(gè)獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶(hù),因此有搜索引擎之上的搜索引擎之稱(chēng)。它的主要精力放在提高搜索速度、智能化處理搜索結果、個(gè)性搜索功能的設置和用戶(hù)檢索界面的友好性上,查全率和查準率都比較高。目前比較成功的元搜索引擎有metacrawler、dopile、ixquick等。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。