| 作者:迷宗腿 提交日期:2005-8-10 10:29:00 |
|
最近一直在看有關(guān)這方面的文章,在這里介紹一下,并提出自己的幾個(gè)疑問(wèn),請路過(guò)的高手給與指點(diǎn),不勝感激!
現在已經(jīng)步入信息高速時(shí)代,可是要獲取自己想要的資源,通過(guò)傳統的搜索引擎已經(jīng)很難辦到,如何快速提供具有個(gè)性化的信息,已經(jīng)成為下一代搜索引擎研究的焦點(diǎn),在這里我們把人工智能中Agent(代理)的概念與搜索引擎結合來(lái)提供具有個(gè)性化信息。
1、引言:現有傳統搜索引擎的不足:(1)單一的搜索引擎不能覆蓋整個(gè)Internet資源(2)搜索引擎沒(méi)有進(jìn)行綜合處理,用戶(hù)只能從大量的反饋信息中提取自己的所需信息(3)現有的搜索引擎使用不同的索引技術(shù)、信息和關(guān)鍵字查詢(xún)語(yǔ)法技術(shù),使得他們各自搜索的信息資源在很大程度有相當大的差異,同時(shí)給用戶(hù)查詢(xún)帶來(lái)很大的不便。(4)現在搜索引擎不能針對用戶(hù)滿(mǎn)足用戶(hù)個(gè)性化的要求。
問(wèn)題的分析及相應的解決方法:上述問(wèn)題的產(chǎn)生主要是由于傳統搜索引擎本身發(fā)展的局限性而帶來(lái)的,它的局限性限制了資源的更有效的獲取。針對以上問(wèn)題,可以了解到要從 internet上獲取有價(jià)值的個(gè)性化的信息,提出了一個(gè)基于A(yíng)gent的元搜索引擎。所謂元搜索引擎(集成搜索引擎)是將現有的多個(gè)搜索引擎看成一個(gè)整體,為用戶(hù)提供一個(gè)統一的查詢(xún)界面,用戶(hù)的查詢(xún)請求由元搜索引擎根據知識庫中的信息轉換為多個(gè)成員搜索引擎所能識別的格式,然后按照成員搜索引擎的調度算法,把規范的查詢(xún)分送到成員搜索引擎,由這些搜索引擎完成實(shí)際的信息檢索操作,最后元搜索引擎再以一定的格式返回給用戶(hù)。對于元搜索引擎來(lái)說(shuō),不象傳統的搜索引擎那樣有獨立的網(wǎng)源采集標引機制和相應的數據庫,有局部數據模式和自己的檢索指令。元搜索引擎沒(méi)有自己獨立的數據庫和索引機制,而是在其它搜索引擎的大型數據庫上實(shí)現其檢索;它提供給用戶(hù)一個(gè)全局外部模式,接受用戶(hù)的輸入請求;在存儲設備上比傳統的搜索引擎要小得多。況且,元搜索引擎可支持多個(gè)成員搜索引擎的檢索語(yǔ)法,方便了用戶(hù)的使用,同時(shí),信息的查全率和查準率都將大大提高。再者,由于該模型基于A(yíng)gent技術(shù),可以利用Agent的自治性和Agent之間的協(xié)作來(lái)完成元搜索引擎上用戶(hù)的興趣學(xué)習、信息搜索、結果處理等工作。因此,面對現有傳統搜索引擎的不足,解決的方案就是采用基于A(yíng)gent技術(shù)的元搜索引擎技術(shù)。
2、相關(guān)技術(shù)介紹:
1、 Agent技術(shù)介紹
Agent是一個(gè)應用范圍極廣的術(shù)語(yǔ),一般被用來(lái)指具有感知能力、問(wèn)題求解能力及與外界進(jìn)行通訊能力的一個(gè)實(shí)體。它的定義如下:Agent 是一定環(huán)境下的計算機系統,它能夠對所在的環(huán)境進(jìn)行靈活的自治動(dòng)作,以滿(mǎn)足其設計的目標,。一般說(shuō)來(lái) Agent 的基本必備特性,如下:
自治(主)性:Agent能自行控制其狀態(tài)和行為,能在沒(méi)有人或其他程序介入時(shí)操作和運行。
通信能力:Agent能用某種通信語(yǔ)言與其它實(shí)體交換信息和互補利用。
感知能力和反應能力:Agent可以感知環(huán)境并及時(shí)地做出反應,他們的行為通常觸發(fā)規則或執行與定義的計劃;更新Agent 事實(shí)庫,并發(fā)送消息給環(huán)境中的其他 Agent。
能(主)動(dòng)性:Agent主動(dòng)表現出目標驅動(dòng)的行為,能自行選擇合適時(shí)機采取適宜動(dòng)作。
持續性:Agent是持續或連續運行的過(guò)程,其狀態(tài)在運行過(guò)
程中應保持一致。
模型采用 Agent技術(shù)的原因:
(1) Agent技術(shù)實(shí)現幫助用戶(hù)查找資源的導航作用。
(2)利用Agent技術(shù)實(shí)現決策支持,即對用戶(hù)的個(gè)性化搜索、成員搜索引擎的調度給于支持。
(3)利用 Agent技術(shù)實(shí)現信息過(guò)濾,即按照用戶(hù)的指定的條件,從流向用戶(hù)的大量信息中篩選出符合條件的信息提交給用戶(hù)。
(4)利用Agent技術(shù)實(shí)現信息的動(dòng)態(tài)更新,搜索引擎本身的信息索引庫在不斷更新,利用Agent技術(shù)可維護元搜索引擎的信息庫不斷的動(dòng)態(tài)更新。
2、 搜索引擎調度技術(shù)介紹
元搜索引擎下的每個(gè)成員搜索引擎都有自己的由一系列文檔所組成的文本數據庫,成員搜索引擎調度技術(shù)就是為每個(gè)查詢(xún)提供最可能包含有用文檔的成員搜索引擎,這對元搜索引擎的執行效率是至關(guān)重要的?,F有的搜索引擎調度技術(shù)有:
樸素算法:這個(gè)方法沒(méi)有衡量成員搜索引擎的有用性,用戶(hù)查詢(xún)請求被簡(jiǎn)單的送到每個(gè)成員搜索引擎上,當成員搜索引擎較少時(shí)這種方法比較有效,但當成員搜索引擎數量較大時(shí),將查詢(xún)送到每個(gè)成員搜索引擎的策略就不合理了,因為大多數的成員搜索引擎對查詢(xún)毫無(wú)用處。
定性的方法:根據一定的評分函數對給定的查詢(xún)預測每個(gè)成員搜索引擎的質(zhì)量,起評分或質(zhì)量衡量往往不易理解。
基于學(xué)習的方法:根據以往檢索成員搜索引擎的經(jīng)驗來(lái)預測個(gè)引擎對信查詢(xún)的有用性。需要較長(cháng)的時(shí)間才能收集到成員搜索引擎選擇程序有用的信息;反饋過(guò)程不嚴格,很可能導致對于有用成員搜索引擎的錯誤判斷。
定量的方法:根據一些比定性方法使用的衡量標準更容易理解的標準來(lái)衡量成員搜索引擎的有用性。定量方法使用根據給定查詢(xún)計算出的數據的有用性,相對定性方法而言更加直接和明晰。
3、 搜索引擎反饋結果合并技術(shù):結果合并技術(shù)劃分為兩類(lèi):(1)通過(guò)局部相似度的調整:根據成員搜索引擎的文檔相似度值歸一化到一個(gè)較為統一的值域,再進(jìn)行比較和排序(2)通過(guò)全局相似度的估計:計算或估計各個(gè)返回文檔的全局相似度。
3、系統研究與設計
1、系統結構框架
2、用戶(hù)Agent:負責與用戶(hù)交互,主要由輸入接口、歷史庫、推理機、用戶(hù)模型和輸出接口構成。
3、信息檢索Agent:主要由三個(gè)功能模塊組成,即查詢(xún)請求分析模塊、成員搜索引擎調度機制模塊和查詢(xún)參數轉換模塊。
4、 查詢(xún)結果處理Agent:主要有兩個(gè)功能:(1)負責吧各個(gè)成員搜索引擎返回的查詢(xún)結果根據策略庫中的信息,去掉無(wú)鏈接的頁(yè)面,去掉重復的冗余的信息。(2)計算和估計成員搜索引擎的各項相關(guān)性能的評價(jià)信息,然后修改信息庫中的內容。
4、系統設計與實(shí)現中的關(guān)鍵問(wèn)題
1、 基于用戶(hù)個(gè)人喜好的成員搜索引擎算法:響應時(shí)間最快,返回文檔數最多,返回質(zhì)量最好的策略
2、 多Agent協(xié)同工作
以下本人有幾個(gè)問(wèn)題,請高手賜教:
?。?) 如何把要搜索的內容轉換為各個(gè)搜索引擎接收的格式:比如我要查找java,如何把這個(gè)查詢(xún)送到google上,或者其他搜索引擎上,有沒(méi)有什么固定的格式?
?。?) 如何獲取個(gè)搜索引擎的關(guān)于網(wǎng)頁(yè)的page rank,全局相似度,局部相似度。
?。?) 在顯示給用戶(hù)的時(shí)候,這些如何排序,按照什么標準來(lái)排序,這種標準如何在多個(gè)搜索引擎的返回頁(yè)面中來(lái)統一。
PS:有沒(méi)有懂得元搜索引擎的,可以與我交流,e-mail:huochangzhi1982@163.com,其待共同提高
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。