GIS系統數據挖掘功能的擴展
蔣 旻1 梁 平2 賀貴明3 劉振勝3
1. (武漢科技大學(xué)計算機系,武漢 430081)
2. (華中科技大學(xué)計算機系,武漢 430074)
3. (武漢大學(xué)軟件工程國家重點(diǎn)實(shí)驗室,武漢 430072)
E-mail:leetiti@hotmail.com
摘 要:該文分析了GIS系統中數據挖掘的特點(diǎn)與要求,總結和比較了空間數據挖掘技術(shù)的研究和不同開(kāi)發(fā)方式,提出了一種在GIS系統中擴展空間數據挖掘功能的方法。
關(guān)鍵詞:數據挖掘GIS空間數據管理
文章編號1002-8331-(2003)28-0211-03 文獻標識碼:A 中圖分類(lèi)號:TP274
A Method of Extending GIS of Spatial Data Mining
Abstract:This article analyzes the features and demands of data mining in GIS, summarizes the research of spatial data mining technology and the different method of develoing SDM system, and suggests a method of extending GIS of spatial data mining.
Keywords:Data mining; GIS; Spatial data management
在空間數據庫中發(fā)現知識,就是提取感興趣的空間模式和特征、空間數據與非空間數據之間的聯(lián)系以及不是顯式地存放在空間數據庫中的其它數據特點(diǎn)[5]。近年來(lái)地理信息系統的技術(shù)逐漸走向成熟,應用領(lǐng)域也在不斷擴展,但由于流行的GIS系統中的空間分析在處理海量數據的能力有限,并且空間分析的復雜模型的建立往往需要專(zhuān)家的支持。所以GIS在支持自動(dòng)空間知識發(fā)現的能力仍很薄弱。
數據挖掘是從大量的數據中提取出可信的、新穎的、有用的并能被人理解的模式的處理過(guò)程[6]。GIS主要依靠用戶(hù)生成假說(shuō),并以地理空間中可視化的方式表現數據的內容。而數據挖掘是依靠系統生成假說(shuō)在抽象空間推斷和歸納超出數據庫內容并將結果可視化。
該文總結和比較了國際上空間數據挖掘的研究和系統的不同開(kāi)發(fā)方式,提出了一種在GIS系統中擴展空間數據挖掘功能方法??臻g數據庫中數據挖掘可分為兩類(lèi):對矢量空間結構對象的數據挖掘;對柵格空間結構對象的數據挖掘。該文的研究對象是前者。
1 GIS系統中數據挖掘的特點(diǎn)與要求
GIS中含有大量的空間和非空間數據,有著(zhù)比一般關(guān)系數據庫和事務(wù)數據庫更加豐富和復雜的語(yǔ)義信息,隱藏著(zhù)豐富的知識??臻g數據與普通數據的不同特點(diǎn)決定了在空間數據庫進(jìn)行數據挖掘與在普通事務(wù)數據庫中數據挖掘方法的不同[5]。
(1)數據存儲機制不同
空間數據具有不同于關(guān)系數據的特點(diǎn),它帶有空間拓撲結構和距離信息,通常用復雜的多維空間索引結構組織存放(如R樹(shù)),并通過(guò)空間數據存取方法訪(fǎng)問(wèn),也常常需要用空間推理、幾何計算和空間知識的表示技術(shù)等。
(2)空間數據的特點(diǎn)
空間數據相互依賴(lài)性強。而事務(wù)挖掘算法假定數據獨立,所以,數據依賴(lài)使得事務(wù)數據挖掘工具很難發(fā)現對象間的空間聯(lián)系。所以,只有把事務(wù)數據挖掘技術(shù)擴充到空間數據挖掘,才能更好地分析復雜的空間現象和空間對象。
2 空間數據挖掘技術(shù)
空間數據挖掘技術(shù)按功能可分為三類(lèi):描述、解釋、預測。描述性的模型將空間現象的分布特征化。如空間聚類(lèi)。解釋性的模型處理空間關(guān)系,如一個(gè)空間對象和影響其空間分布的因素之間的關(guān)系。預測型的模型用來(lái)根據給定的一些屬性預測某些屬性。預測型的模型包括分類(lèi)、回歸等等[3]。以下介紹幾個(gè)典型的空間數據挖掘技術(shù)。
2.1 聚類(lèi)方法
聚類(lèi)分析方法按一定的距離或相似性測度將數據分成一系列相互區分的組[6]。
而空間數據聚類(lèi)是按照某種距離度量準則,在某個(gè)大型、多維數據集中標識出聚類(lèi)或稠密分布的區域,從而發(fā)現數據集的整個(gè)空間分布模式。經(jīng)典統計學(xué)中的聚類(lèi)分析方法對海量數據效率很低。數據挖掘中的聚類(lèi)方法可以大大提高聚類(lèi)效率。kopersKi等人提出了兩個(gè)基于CLARANS聚類(lèi)算法空間數據挖掘算法SD和ND。
2.2 分類(lèi)方法
空間分類(lèi)指分析空間對象導出與一定空間特征有關(guān)的分類(lèi)模式,如地區、高速公路或河流的鄰域[5]。目前空間分類(lèi)的研究尚處在起步階段。kopersKi等人提出了一種空間對象分類(lèi)方法[7],該方法采用ID3算法,并采用了一種機器學(xué)習方法用于空間分類(lèi)中的相關(guān)空間謂詞或函數抽取。
2.3 關(guān)聯(lián)規則
kopersKi和Han將大型事務(wù)數據庫的關(guān)聯(lián)規則概念擴展到空間數據庫,并以此找出空間對象的關(guān)聯(lián)規則。構成空間互聯(lián)規則的空間謂詞有三種形式:表示拓撲關(guān)系的謂詞,如相交、覆蓋等;表示空間方位和排列次序謂詞,如東、西、左、右等;表示距離的謂詞,如接近、遠離等。kopersKi提出的空間關(guān)聯(lián)規則的方法采用一種逐漸求精的方法計算空間謂詞,該方法首先用一種快速的算法粗略地對一個(gè)較大的數據集進(jìn)行一次挖掘,然后在裁剪過(guò)的數據集上用代價(jià)較高的算法進(jìn)一步改進(jìn)挖掘的質(zhì)量。
3 空間數據挖掘系統的開(kāi)發(fā)
3.1 通用SDM系統軟件
在空間數據挖掘系統的開(kāi)發(fā)方面,國際上最著(zhù)名及有代表性的通用SDM系統有GeoMiner,Descartes和ArcViewGIS的S_PLUS接口。下面分別介紹:
(1)GeoMiner
GeoMiner是加拿大Simon Fraser大學(xué)開(kāi)發(fā)的著(zhù)名的數據挖掘軟件DBMiner的空間數據挖掘的擴展模塊,空間數據挖掘原型系統GeoMiner,包含有三大模塊:空間數據立方體構建模塊、空間聯(lián)機分析處理(OLAP)模塊和空間數據挖掘模塊,能夠進(jìn)行交互式地挖掘并顯示挖掘結果??臻g數據挖掘模塊能挖掘三種類(lèi)型的規則:特征規則、判別規則和關(guān)聯(lián)規則。GeoMiner采用的空間數據挖掘語(yǔ)言是GMQL。
(2)Descartes
Descartes可支持可視化的分析空間數據,它與開(kāi)發(fā)此軟件的公司開(kāi)發(fā)的數據挖掘工具Kepler結合使用,Kepler完成數據挖掘任務(wù)且擁有自己的表現數據挖掘結果的非圖形界面,Kepler和Descarte動(dòng)態(tài)鏈接,把傳統DM與自動(dòng)作圖可視化和圖形表現操作結合起來(lái)。實(shí)現了C4.5決策樹(shù)算法、聚類(lèi)、關(guān)聯(lián)規則的挖掘。
(3)ArcView GIS的S_PLUS接口
ArcView GIS的S_PLUS接口是著(zhù)名的ESRI公司開(kāi)發(fā),它提供工具分析空間數據中指定類(lèi)。
以上SDM系統它們的共同優(yōu)點(diǎn)是把傳統DM與地圖可視化結合起來(lái),提供聚類(lèi)、分類(lèi)等多種挖掘模式,但它們在空間數據的操作上實(shí)現方式不盡相同,Descartes是專(zhuān)門(mén)的空間數據可視化工具, 它和DM工具Lepler兩者聯(lián)合在一起才能完成SDM任務(wù)。而GeoMiner是在MapInfo平臺上進(jìn)行二次開(kāi)發(fā)而成,系統龐大,造成較大的資源浪費。S_PLUS的局限在于,它是用一種解釋性語(yǔ)言(Script),功能的實(shí)現比用C和C++直接實(shí)現要慢的多,所以只能使用與非常小的數據庫應用。以下對現存空間數據挖掘系統的結構特點(diǎn)進(jìn)行進(jìn)一步的分析,并提出一種GIS系統擴展數據挖掘功能的實(shí)現模式。
4 系統擴展數據挖掘功能的實(shí)現
4.1 實(shí)現模式的比較
空間數據挖掘的實(shí)現技術(shù)就是指其組成要素間的集成技術(shù)。由于空間數據挖掘由空間數據庫系統(主要是指GIS數據庫)、數據挖掘系統和人機接口三部分組成,而從當前存在的系統狀態(tài)來(lái)看,空間數據庫部分又是GIS系統的組成部分。所以系統的集成就是GIS系統、數據挖掘以及人機接口系統的集成。其中GIS系統與空間數據挖掘庫系統的集成是整個(gè)系統集成的核心。關(guān)于數據挖掘和GIS的結合,一般有三種模式:
(1)模式1:集成數據挖掘開(kāi)發(fā)模式。
該模式自主開(kāi)發(fā)GIS空間數據管理功能,裝有各種數據挖掘分析模型的部件和GIS軟件包集成為一個(gè)統一的支持環(huán)境。
(2)模式2:利用現有的商用GIS系統,通過(guò)數據文件或關(guān)系數據管理系統將數據挖掘和GIS結合起來(lái)。
可分為緊耦合和松散耦合兩種方式。松散耦合方式是指GIS系統與空間數據挖掘系統完全分開(kāi),通過(guò)文件系統或關(guān)系數據管理系統來(lái)交換信息。GIS系統完成部分數據預處理算法和空間數據的管理及挖掘結果的顯示。緊耦合方式,是指GIS系統與數據挖掘系統部分集成。緊耦合的方式有兩種方式:通過(guò)GIS應用平臺提供的GIS應用平臺所帶的腳本語(yǔ)言或OLE(對象連結或嵌入)來(lái)實(shí)現應用程序。如Geominer;或通過(guò)組件技術(shù)利用GIS的空間數據庫管理和空間數據顯示功能,以實(shí)現GIS與數據挖掘的無(wú)縫連接的集成方式,這也是當前開(kāi)發(fā)GIS應用系統的主流方法。
(3)模式3:數據挖掘/擴展的空間數據管理功能的通用數據庫管理系統R GIS集成的開(kāi)發(fā)模式。
空間數據管理和空間分析功能還是主要由GIS組件或OLE技術(shù)實(shí)現,通用數據庫只負責存儲空間數據,GIS通過(guò)專(zhuān)用接口與通用數據庫連接。
4.2 一種新的開(kāi)發(fā)模式
從用戶(hù)的角度來(lái)看,模式1是一種完善集成方式,但開(kāi)發(fā)難度較大,如何折中選擇開(kāi)發(fā)模式,是成功構造基于GIS的數據挖掘的關(guān)鍵。為了克服以上幾種模式的缺點(diǎn),該文提出了一種新的開(kāi)發(fā)模式。即以現有的通用空間數據庫(Oracle spatial)為核心,利用其擴展的空間數據管理和空間分析的能力,另外利用GIS組件提供對挖掘結果顯示。這種模式實(shí)現了GIS系統與空間數據挖掘系統完全集成。
這樣構造的數據挖掘系統結構如圖1所示。該系統的基本結構與一般數據挖掘系統相同,只是在數據挖掘和數據管理中增加了有關(guān)空間數據模型化、空間數據管理和空間分析的功能,并建立一個(gè)人機接口處理用戶(hù)的指令和顯示挖掘結果。
這種開(kāi)發(fā)模式與現存開(kāi)發(fā)模式的最大區別是用通用數據庫代替專(zhuān)門(mén)的GIS商用軟件實(shí)現空間數據管理功能。它的優(yōu)點(diǎn)在于以下幾點(diǎn):
從GIS的功能分析可以看到:
GIS作為一個(gè)獨立軟件系統時(shí),需要具有完整的功能結構,而在為數據挖掘服務(wù)時(shí),其主要目的在于為決策者提供決策對象及顯示作為挖掘結果的地圖,因此只要按需選取GIS的部分功能,而不必面面俱到。
GIS的一些功能如空間數據的管理和空間分析等,在擴展了空間數據管理功能的通用數據庫系統中存在相似模塊,因此可通過(guò)數據庫管理系統中已有功能得到??臻g數據和屬性數據的查詢(xún)和空間操作可利用數據庫管理功能,數據挖掘分析模塊則可作為一個(gè)或多個(gè)模塊,由數據挖掘子系統統一管理,將空間數據的存儲與管理分析均交給數據庫管理系統。這樣不僅可減少系統的功能冗余,提高系統的一致性,還可更好地利用數據管理系統的各種優(yōu)化技術(shù)提高系統空間數據管理與分析的速度。
目前不同GIS廠(chǎng)商遵循空間數據格式標準不同,GIS通用平臺或組件一般只能直接處理該系統的空間數據文件。因此異種數據庫的集成是一個(gè)難題。而擴展了空間數據管理功能的通用數據庫提供了數據轉換接口,可以將各種不同格式的空間數據轉換為統一的格式存入擴展的對象— —關(guān)系數據庫,利用通用數據庫擴展的空間數據管理功能可以很好地解決異種數據庫的集成的問(wèn)題。另外它也克服了GIS系統空間數據與屬性數據分離的缺點(diǎn)。
從GIS與DM的關(guān)系來(lái)看:
GIS系統與數據挖掘系統完全分開(kāi)的系統盡管簡(jiǎn)單,但有不少缺點(diǎn)。首先,DB系統在存儲、組織、訪(fǎng)問(wèn)和處理數據立方體方面提供了很大的靈活性和有效性。不使用DB/DW系統,DM系統可能要花大量的時(shí)間查找、收集、清理和轉換數據。在DB和/或DW系統,數據多半被很好地組織、索引、清理、集成或合并,使得找出任務(wù)相關(guān)的、高質(zhì)量的數據成為一件容易的任務(wù)。其次,在DB或DW系統中,有許多被測試的、可伸縮的算法和數據結構。使用這種系統開(kāi)發(fā)有效的、可伸縮的實(shí)現是切實(shí)可行的。此外,大部分數據已經(jīng)或將要存放在DB/DW系統中。不與這些系統耦合,DM系統就需要使用其它工具提取數據,使得很難將這種系統集成到信息處理環(huán)境。
5 實(shí)現示例
根據以上理論,筆者開(kāi)發(fā)實(shí)現了一個(gè)基于Oracle Spatial的空間數據挖掘實(shí)驗系統。挖掘目標的空間和非空間數據及概念層次的存儲和空間數據的管理由Oracle 8.1.7 Spatial實(shí)現。數據準備算法和聚類(lèi)、分類(lèi),關(guān)聯(lián)規則等挖掘算法在服務(wù)器端實(shí)現,并提供接口給客戶(hù)端,在客戶(hù)端用GIS組件MapX4.0實(shí)現挖掘結果的專(zhuān)題圖顯示與評價(jià),編程工具為VC++6.0。圖2展示的是空間聚類(lèi)的實(shí)現(測試數據為MapInfo地圖集中美國US_CUSG,采用DBSCAN算法)。(收稿日期:2002年5月)
參考文獻
1. Ester M, Kriegel H-P, Sander J et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]. In:Proc Second International Conference on Knowledge Discovery and Data Mining, Porland, Oregon, AAAI Press, 1996
2. Ester M, Kriegel H-P, Snader J. Knowledge Discovery in Spatial Databases[C]. In:Proc 23rd German Conference on Artificial Intelligence, KI‘99, Bonn, Germany, Lecture Notes in Computer Science, 1999
3. Ng R T, Han J. Efficient and effective clustering methods for spatial data mining[C]. In:Proc 23rd German Conference on Artificial Intelligence, KI‘99, Bonn, Germany, Lecture Notes in Computer Science, 1999
4. Krzysztof Koperski, Jiawei Hand. Discovery of Spatial Association Rules in Geographic Information Database[C]. In:Proc Foruth International Symposium on Large Spatial Data bases, 1995:47~66
5. 邸凱昌著(zhù). 空間數據挖掘與知識發(fā)現
6. Jiawei Han. 數據挖掘--概念與技術(shù)
7. Koperski K, Han J W, Stefanovic N. An efficient two-step method for classification of spatial data[C]. In:PoikerTed Pro-ceedings of the 1998 International Symposium on SpatialDataHandling(SDH‘98), Vancouver, BC, 1998-11
作者簡(jiǎn)介:蔣旻(-V0’2),女,武漢科技大學(xué)計算機系教師,研究方向:數據庫、多媒體技術(shù)、GIS應用研究。梁平,女,華中科技大學(xué)計算機系博士生。
聯(lián)系客服