隨著(zhù)網(wǎng)絡(luò )信息資源的急劇增長(cháng),人們越來(lái)越多地關(guān)注如何開(kāi)發(fā)和利用這些資源。然而,目前中英文搜索引擎均存在查準率、查全率不高的現象,這種現狀無(wú)法適應用戶(hù)對高質(zhì)量的網(wǎng)絡(luò )信息服務(wù)的需求;同時(shí)電子商務(wù)以及各種網(wǎng)絡(luò )信息服務(wù)迅速興起,原有的網(wǎng)絡(luò )信息處理與組織技術(shù)無(wú)法趕上這樣的發(fā)展趨勢,網(wǎng)絡(luò )信息挖掘就是在這樣一種環(huán)境下應運而生的,并迅速成為網(wǎng)絡(luò )信息檢索、信息服務(wù)領(lǐng)域的熱點(diǎn)之一。
1 網(wǎng)絡(luò )信息挖掘概述
1.1 數據挖掘(Data Mining)
網(wǎng)絡(luò )信息挖掘必須從數據挖掘談起。數據挖掘,又稱(chēng)為數據采掘、數據開(kāi)采,相近的術(shù)語(yǔ)有KDD(Knowledge Discovery in Database,數據庫知識發(fā)現)、數據分析、數據融合(Data Fusion)等。根據W.J.Fraw
【數據挖掘研究院】(China Data Mining Research,CDMR)是一個(gè)專(zhuān)注于數據挖掘及其相關(guān)技術(shù)的討論組織,參與者都是數據挖掘及其相關(guān)學(xué)科的愛(ài)好者。作為論壇的組織者我們也是數據挖掘的忠實(shí)愛(ài)好者,希望能夠利用一些有限的資源為中國數據挖掘營(yíng)造一個(gè)良好的發(fā)展環(huán)境。
ley和G.P.Shapiro等人的定義,數據挖掘是指從大型數據庫的數據中提取人們感興趣的知識,而這些知識是隱含的、事先未知的、潛在的有用信息。
數據挖掘的提出最初是針對大型數據庫的,這些數據庫容量可能達到GB(109)字節,甚至TB(1012)字節,最近IBM提出其數字圖書(shū)館的數據將可能達PB(1015)字節。
從更廣義的角度來(lái)講,數據挖掘意味著(zhù)在一些事實(shí)或觀(guān)察數據的集合中尋找模式的決策支持過(guò)程。因而,數據挖掘的對象不僅是數據庫,還可以是任何組織在一起的數據集合,如WWW信息資源等。目前數據挖掘工具能處理數值型的結構化數據,而文本、圖形、數學(xué)公式、圖像或WWW信息資源等半結構、無(wú)結構的數據形式將是數據挖掘的挑戰之一。
1.2 網(wǎng)絡(luò )信息挖掘
國外有人認為:網(wǎng)絡(luò )信息挖掘就是利用數據挖掘技術(shù),自動(dòng)地從網(wǎng)絡(luò )文檔以及服務(wù)中發(fā)現和抽取信息的過(guò)程。國內則眾說(shuō)紛紜。有學(xué)者將網(wǎng)絡(luò )環(huán)境下的數據挖掘歸入網(wǎng)絡(luò )信息檢索與網(wǎng)絡(luò )信息內容的開(kāi)發(fā)。也有站在信息服務(wù)的角度上提出“信息挖掘”,指出其有別于傳統的信息檢索,能夠在異構數據組成的信息庫中,從概念及相關(guān)因素的延伸比較上找出用戶(hù)需要的深層次的信息,并提出信息挖掘將改革傳統的信息服務(wù)方式而形成一個(gè)全新的適合網(wǎng)絡(luò )時(shí)代要求的信息服務(wù)組合。
網(wǎng)絡(luò )信息挖掘分為如下四個(gè)步驟(如圖1):(1)資源發(fā)現,即檢索所需的網(wǎng)絡(luò )文檔;(2)信息選擇和預處理,即從檢索到的網(wǎng)絡(luò )資源中自動(dòng)挑選和預先處理得到專(zhuān)門(mén)的信息;(3)概括化,即從單個(gè)的Web站點(diǎn)以及多個(gè)站點(diǎn)之間發(fā)現普遍的模式;(4)分析,對挖掘出的模式進(jìn)行確認或者解釋。
資源發(fā)現
—↓
信息選擇與預處理
—↓
概括化
—↓
分 析
圖1 網(wǎng)絡(luò )信息挖掘的步驟圖
2 網(wǎng)絡(luò )信息挖掘的類(lèi)型
根據挖掘的對象不同,網(wǎng)絡(luò )信息挖掘可以分為網(wǎng)絡(luò )內容挖掘(Web content mining)、網(wǎng)絡(luò )結構挖掘(Web structure mining)以及網(wǎng)絡(luò )用法挖掘(Web usage mining)。
2.1 網(wǎng)絡(luò )內容挖掘
網(wǎng)絡(luò )內容挖掘即從網(wǎng)絡(luò )的內容/數據/文檔中發(fā)現有用信息的過(guò)程。網(wǎng)絡(luò )信息資源類(lèi)型眾多,Internet出現之前的Gopher、FTP、Usenet資源逐漸隱藏到WWW形式之后,但這些資源仍可以通過(guò)web進(jìn)行訪(fǎng)問(wèn);目前WWW信息資源已經(jīng)成為網(wǎng)絡(luò )信息資源的主體。然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實(shí)現檢索服務(wù)的資源之外,一些網(wǎng)絡(luò )信息是“隱藏”著(zhù)的數據,如由用戶(hù)的提問(wèn)而動(dòng)態(tài)生成的結果,或是存在在DBMS(數據庫管理系統)中的數據,或是那些私人數據,它們無(wú)法被索引,從而無(wú)法提供對它們有效的檢索方式。以上是從網(wǎng)絡(luò )信息源的角度探討,若從資源形式看,網(wǎng)絡(luò )信息內容是由文本、圖象、音頻、視頻、元數據等等形式的數據組成的,因而我們所說(shuō)的網(wǎng)絡(luò )內容挖掘將是一種多媒體數據挖掘形式。
2.2 網(wǎng)絡(luò )結構挖掘
網(wǎng)絡(luò )結構挖掘即挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數量以及對象來(lái)建立Web自身的鏈接結構模式。這種模式可以用于網(wǎng)頁(yè)歸類(lèi),并且可以由此獲得有關(guān)不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò )結構挖掘有助于用戶(hù)找到相關(guān)主題的權威站點(diǎn),并且可以概觀(guān)指向眾多權威站點(diǎn)的相關(guān)主題的站點(diǎn)。
2.3 網(wǎng)絡(luò )用法挖掘
通過(guò)網(wǎng)絡(luò )用法挖掘,可以了解用戶(hù)的網(wǎng)絡(luò )行為數據所具有的意義。網(wǎng)絡(luò )內容挖掘、網(wǎng)絡(luò )結構挖掘的對象是網(wǎng)上的原始數據,而網(wǎng)絡(luò )用法挖掘則不同于前兩者,它面對的是在用戶(hù)和網(wǎng)絡(luò )交互的過(guò)程中抽取出來(lái)的第二手數據。這些數據包括:網(wǎng)絡(luò )服務(wù)器訪(fǎng)問(wèn)記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶(hù)簡(jiǎn)介、注冊信息、用戶(hù)對話(huà)或交易信息、用戶(hù)提問(wèn)式等等。
上述三個(gè)網(wǎng)絡(luò )信息挖掘類(lèi)型的比較見(jiàn)表1:
表1 網(wǎng)絡(luò )信息挖掘類(lèi)型比較
網(wǎng)絡(luò )信息挖掘
網(wǎng)絡(luò )內容挖掘 網(wǎng)絡(luò )結構挖掘 網(wǎng)絡(luò )用法挖掘
信息檢索觀(guān)點(diǎn) 數據庫觀(guān)點(diǎn)
數據形式 非結構化、半結構化 半結構化、數據庫形式的網(wǎng)站 鏈接結構 交互形式
主要數據 文本文檔、超文本文檔 超文本文檔 鏈接結構 服務(wù)器日志記錄
瀏覽器日志記錄
表示 Bag of words、n-grams、詞、短語(yǔ)、概念或實(shí)體、關(guān)系型數據 邊界標志圖(OEM)、關(guān)系型數據 圖形 關(guān)系型表、圖形
方法 TFIDF和變體、機器學(xué)習、統計學(xué)(包括自然語(yǔ)言處理) Proprietary算法、ILP、(修改后)的關(guān)聯(lián)規則 Proprietary算法 機器學(xué)習、統計學(xué)、(修改后)的關(guān)聯(lián)規則
應用 歸類(lèi)、聚類(lèi)、發(fā)掘抽取規則、發(fā)掘文本模式、建立模式 發(fā)掘高頻的子結構、發(fā)掘網(wǎng)站體系結構 歸類(lèi)、聚類(lèi) 站點(diǎn)建設、改進(jìn)與管理、營(yíng)銷(xiāo)、建立用戶(hù)模式
表1中分別從5個(gè)方面比較了三類(lèi)網(wǎng)絡(luò )信息挖掘。首先解釋一下結構化、半結構化、非結構化數據。結構化數據如數據庫表中的數據或者是由數據庫生成的HTML頁(yè)面;半結構化數據則指一般的HTML文檔;而非結構化數據是指自由文本之類(lèi)的數據。網(wǎng)絡(luò )信息包括了上面列舉的所有形式的數據。本文中將不會(huì )詳細介紹各類(lèi)挖掘所采用的數據表示形式及挖掘的方法。關(guān)于它們的具體應用將在第4點(diǎn)中加以介紹。
3 網(wǎng)絡(luò )信息挖掘與網(wǎng)絡(luò )信息檢索
狹義上講,網(wǎng)絡(luò )信息檢索就是網(wǎng)絡(luò )信息(內容)挖掘的一種。最初,信息檢索的目標是標引文本,并從集合中找出有用的文檔;發(fā)展到今天,信息檢索研究涉及到建立模型、文檔分類(lèi)與歸類(lèi)、用戶(hù)交互、數據可視化、數據過(guò)濾等等。從這個(gè)角度看,網(wǎng)絡(luò )信息挖掘只能作為信息檢索過(guò)程的一部分。最明顯的一個(gè)例子就是Web文檔的分類(lèi)與歸類(lèi)。
下面我們以國外著(zhù)名的搜索引擎Google(http://www.google.com)為例,剖析網(wǎng)絡(luò )信息挖掘技術(shù)在網(wǎng)絡(luò )信息檢索中的應用。首先我們先看一下Google的體系結構(見(jiàn)圖2)。
Google的搜索機制是:幾個(gè)分布的Crawler(自動(dòng)搜索軟件)同時(shí)工作——在網(wǎng)上“爬行”,URL服務(wù)器則負責向這些Crawler提供URL的列表。Crawler所找到的網(wǎng)頁(yè)被送到存儲服務(wù)器(Store Server)中。存儲服務(wù)器于是就把這些網(wǎng)頁(yè)壓縮后存入一個(gè)知識庫(repository)中。每個(gè)網(wǎng)頁(yè)都有一個(gè)關(guān)聯(lián)ID——doc ID,當一個(gè)新的URL從一個(gè)網(wǎng)頁(yè)中解析出來(lái)時(shí),就被分配一個(gè)doc ID。索引庫(Indexer)和排序器(Sorter)負責建立索引,索引庫從知識庫中讀取記錄,將文檔解壓并進(jìn)行解析。每個(gè)文檔就轉換成一組詞的出現狀況(word occurrences),稱(chēng)為hits。hits記錄了詞、詞在文檔中的位置、字體大小、大小寫(xiě)等。索引庫把這些hit又分成一組“barrels”,產(chǎn)生經(jīng)過(guò)部分排序后的索引。索引庫同時(shí)分析網(wǎng)頁(yè)中所有的鏈接并將重要信息存在A(yíng)nchors文檔中。這個(gè)文檔包含了足夠信息,可以用來(lái)判斷一個(gè)鏈接被鏈入或鏈出的結點(diǎn)信息。
URL分解器(URL Resolver)閱讀Anchors文檔,并把相對的URL轉換成絕對的URLs,并生成doc ID,它進(jìn)一步為Anchor文本編制索引,并與Anchor所指向的doc ID建立關(guān)聯(lián)。同時(shí),它還產(chǎn)生由doc ID對(pairs of doc ID)所形成的數據庫。這個(gè)鏈接數據庫(Links)用于計算所有文檔的頁(yè)面等級(Pagerank)。
排序器會(huì )讀取barrels,并根據詞的ID號(word ID)列表來(lái)生成倒排擋。一個(gè)名為DumpLexicon的程序則把上面的列表和由索引庫產(chǎn)生的一個(gè)新的詞表結合起來(lái)產(chǎn)生另一個(gè)新的詞表供搜索器(Searcher)使用。這個(gè)搜索器就是利用一個(gè)Web服務(wù)器,并使用由DumpLexicon所生成的詞表,并利用上述倒排擋以及頁(yè)面等級來(lái)回答用戶(hù)的提問(wèn)。
從Google的體系結構、搜索原理中可以看到,其關(guān)鍵而具有特色的一步是:利用URL分解器獲得Links信息,并且運用一定的算法得出了頁(yè)面等級的信息,這采用的技術(shù)正是網(wǎng)絡(luò )結構挖掘技術(shù)。作為一個(gè)新興的搜索引擎,Google正是利用這種對WWW的連接進(jìn)行分析和大規模的數據挖掘的技術(shù),使其搜索技術(shù)遠勝一籌。前不久,Yahoo!與Google攜手合作,希望憑借Google的搜索技術(shù)來(lái)確保其在技術(shù)上領(lǐng)先與創(chuàng )新的優(yōu)勢。
圖2 Google的體系結構
4 網(wǎng)絡(luò )信息挖掘的應用前景
在國外,數據挖掘技術(shù)已經(jīng)廣泛地應用于金融業(yè)、零售業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫療服務(wù)以及體育事業(yè)中,而它在網(wǎng)絡(luò )中的應用也正在成為一個(gè)熱點(diǎn)。網(wǎng)絡(luò )信息挖掘的應用涉及到電子商務(wù)、網(wǎng)站設計和搜索引擎服務(wù)等眾多方面。下面主要從這三個(gè)方面介紹其應用。
4.1 電子商務(wù)
運用網(wǎng)絡(luò )用法挖掘技術(shù)能夠從服務(wù)器以及瀏覽器端的日志記錄中自動(dòng)發(fā)現隱藏在數據中的模式信息,了解系統的訪(fǎng)問(wèn)模式以及用戶(hù)的行為模式,從而作出預測性分析。例如通過(guò)評價(jià)用戶(hù)對某一信息資源瀏覽所花的時(shí)間,可以判斷出用戶(hù)對資源興趣如何;對日志文件所收集到的域名數據,根據國家或類(lèi)型(.com,.edu,.gov)進(jìn)行分類(lèi)分析;應用聚類(lèi)分析來(lái)識別用戶(hù)的訪(fǎng)問(wèn)動(dòng)機和訪(fǎng)問(wèn)趨勢等。這項技術(shù)已經(jīng)有效地運用在電子商務(wù)之中。
4.2 網(wǎng)站設計
通過(guò)對網(wǎng)站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網(wǎng)站信息,例如采用自動(dòng)歸類(lèi)技術(shù)實(shí)現網(wǎng)站信息的層次性(hierarchy)組織;同時(shí)可以結合對用戶(hù)訪(fǎng)問(wèn)日志記錄信息的挖掘,把握用戶(hù)的興趣,從而有助于開(kāi)展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù)。目前PDA(Personal Digital Assistant個(gè)人數字助理)以及Cellular phone(移動(dòng)電話(huà))都已經(jīng)可以直接接受網(wǎng)絡(luò )信息服務(wù)。這些設備的顯示界面較小,因而網(wǎng)站面向這些設備的設計就應當突出精品化、個(gè)性化的特點(diǎn),而這類(lèi)特色推送服務(wù)就必須采用網(wǎng)絡(luò )信息挖掘技術(shù)。
4.3 搜索引擎
網(wǎng)絡(luò )信息挖掘技術(shù)在搜索引擎上的應用我們在上一節中已經(jīng)作了一些介紹。Google搜索的最大特色就體現在它所采用的對網(wǎng)頁(yè)Links信息的挖掘技術(shù)上。而實(shí)際上,網(wǎng)絡(luò )信息挖掘是目前網(wǎng)絡(luò )信息檢索發(fā)展的一個(gè)關(guān)鍵。如通過(guò)對網(wǎng)頁(yè)內容挖掘,可以實(shí)現對網(wǎng)頁(yè)的聚類(lèi)、分類(lèi),實(shí)現網(wǎng)絡(luò )信息的分類(lèi)瀏覽與檢索;同時(shí),通過(guò)用戶(hù)所使用的提問(wèn)式(query)的歷史記錄的分析,可以有效地進(jìn)行提問(wèn)擴展(query expansion),提高用戶(hù)的檢索效果(查全率,precision;查準率,recall);另外,運用網(wǎng)絡(luò )內容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權算法,提高網(wǎng)絡(luò )信息的標引準確度,從而改善檢索效果。
上面僅僅列舉了網(wǎng)絡(luò )信息挖掘技術(shù)在這三個(gè)方面的應用。這項技術(shù)的應用正變得越來(lái)越廣泛;用戶(hù)對高品質(zhì)、個(gè)性化的信息的需求也將進(jìn)一步推動(dòng)著(zhù)學(xué)術(shù)界與實(shí)業(yè)界的研究開(kāi)發(fā)工作。
參考文獻
1 胡侃、夏紹瑋.基于大型數據倉庫的數據采掘,研究綜述.軟件學(xué)報,1998,9(1)
2 鄒濤等.基于WWW的文本信息挖掘.情報學(xué)報,1999,18(4)
3 曾民族.“數象信息科學(xué)”和當前研究課題.情報理論與實(shí)踐,1998,21(2)
4 馬費成,陳悅.面向高速信息網(wǎng)絡(luò )的信息資源管理(一)從技術(shù)角度的分析.中國圖書(shū)館學(xué)報,1998,24(113)
5 Raymond Kosala and hendrik Blockeel.Web Mining Research:A Survey.ACM SIGKDD,July 2000.
6 S.Brin and L. Page. The anatomy of a large-scale hypertestual Web search engine. In Seventh International World Wide Web Conference, Brisbane, Australia, 1998
7 李紹華.OLAP和數據挖掘技術(shù)在Web日志上的應用.現代計算機,1999(3)