文章摘要:
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過(guò)程。數據挖掘研究現狀,數據挖掘的挖掘任務(wù)和挖掘方法在本文中簡(jiǎn)略說(shuō)明。
關(guān)鍵詞 數據挖掘,數據庫,抽取,分類(lèi)發(fā)現,聚類(lèi),關(guān)聯(lián)規則
數據挖掘技術(shù)概述
一. 數據挖掘技術(shù)概述
近十幾年來(lái),人們利用信息技術(shù)生產(chǎn)和搜集數據的能力大幅度提高,千萬(wàn)萬(wàn)個(gè)數據庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開(kāi)發(fā)等等,并且這一勢頭仍將持續發(fā)展下去。于是,一個(gè)新的挑戰被提了出來(lái):在這被稱(chēng)之為信息爆炸的時(shí)代,信息過(guò)量幾乎成為人人需要面對的問(wèn)題。如何才能不被信息的汪洋大海所淹沒(méi),從中及時(shí)發(fā)現有用的知識,提高信息利用率呢?要想使數據真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰略發(fā)展服務(wù)才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對"人們被數據淹沒(méi),人們卻饑餓于知?quot;的挑戰,數據挖掘和知識發(fā)現(DMKD)技術(shù)應運而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強大的生命力。
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過(guò)程。還有很多和這一術(shù)語(yǔ)相近似的術(shù)語(yǔ),如從數據庫中發(fā)現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關(guān)系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網(wǎng)絡(luò )上的異構型數據。發(fā)現知識的方法可以是數學(xué)的,也可以是非數學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現了的知識可以被用于信息管理、查詢(xún)優(yōu)化、決策支持、過(guò)程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門(mén)很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
特別要指出的是,數據挖掘技術(shù)從一開(kāi)始就是面向應用的。它不僅是面向特定數據庫的簡(jiǎn)單檢索查詢(xún)調用,而且要對這些數據進(jìn)行微觀(guān)、中觀(guān)乃至宏觀(guān)的統計、分析、綜合和推理,以指導實(shí)際問(wèn)題的求解,企圖發(fā)現事件間的相互關(guān)聯(lián),甚至利用已有的數據對未來(lái)的活動(dòng)進(jìn)行預測。例如加拿大BC省電話(huà)公司要求加拿大SimonFraser大學(xué)KDD研究組,根據其擁有十多年的客戶(hù)數據,總結、分析并提出新的電話(huà)收費和管理辦法,制定既有利于公司又有利于客戶(hù)的優(yōu)惠政策。這樣一來(lái),就把人們對數據的應用,從低層次的末端查詢(xún)操作,提高到為各級經(jīng)營(yíng)決策者提供決策支持。這種需求驅動(dòng)力,比數據庫查詢(xún)更為強大。同時(shí)需要指出的是,這里所說(shuō)的知識發(fā)現,不是要求發(fā)現放之四海而皆準的真理,也不是要去發(fā)現嶄新的自然科學(xué)定理和純數學(xué)公式,更不是什么機器定理證明。所有發(fā)現的知識都是相對的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶(hù)理解,最好能用自然語(yǔ)言表達發(fā)現結果。因此DMKD的研究成果是很講求實(shí)際的。
二、數據挖掘研究現狀
KDD一詞首次出現在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會(huì )議上。迄今為止,由美國人工智能協(xié)會(huì )主辦的KDD國際研討會(huì )已經(jīng)召開(kāi)了7次,規模由原來(lái)的專(zhuān)題討論會(huì )發(fā)展到國際學(xué)術(shù)大會(huì ),人數由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點(diǎn)也逐漸從發(fā)現方法轉向系統應用,并且注重多種發(fā)現策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內容的專(zhuān)題會(huì )議也把數據挖掘和知識發(fā)現列為議題之一,成為當前計算機科學(xué)界的一大熱點(diǎn)。
此外,數據庫、人工智能、信息處理、知識工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開(kāi)辟了KDD專(zhuān)題或專(zhuān)刊。IEEE的KnowledgeandDataEngineering會(huì )刊領(lǐng)先在1993年出版了KDD技術(shù)專(zhuān)刊,所發(fā)表的5篇論文代表了當時(shí)KDD研究的最新成果和動(dòng)態(tài),較全面地論述了KDD系統方法論、發(fā)現結果的評價(jià)、KDD系統設計的邏輯方法,集中討論了鑒于數據庫的動(dòng)態(tài)性冗余、高噪聲筒蝗范ㄐ?、空謾n任侍?,KDD系統與其它傳統的機器學(xué)習、專(zhuān)家系統、人工神經(jīng)網(wǎng)絡(luò )、數理統計分析系統的聯(lián)系和區別,以及相應的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設計制造業(yè)的具體應用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊KnowledgeDiscoveryNuggets最為權威,如要免費訂閱,只需向http://www.kdnuggets.com/subscribe.html發(fā)送一份電子郵件即可,還可以下載各種各樣的數據挖掘工具軟件和典型的樣本數據倉庫,供人們測試和評價(jià)。另一份在線(xiàn)周刊為DS*(DS代表決策支持),1997年10月7日開(kāi)始出版,可向dstrial@tgc.com提出免費訂閱申請。在網(wǎng)上,還有一個(gè)自由論壇DMEmailClub,人們通過(guò)電子郵件相互討論DMKD的熱點(diǎn)問(wèn)題。而領(lǐng)導整個(gè)潮流的DMKD開(kāi)發(fā)和研究中心,當數設在美國EMDEN的IBM公司開(kāi)發(fā)部。
隨著(zhù)DMKD研究逐步走向深入,人們越來(lái)越清楚地認識到,DMKD的研究主要有3個(gè)技術(shù)支柱,即數據庫、人工智能和數理統計。
數據庫技術(shù)在經(jīng)過(guò)了80年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數據庫文化或時(shí)尚,數據庫界目前除了關(guān)注萬(wàn)維網(wǎng)數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢(xún)優(yōu)化和并行計算等技術(shù)外,已經(jīng)在開(kāi)始反思。數據庫最實(shí)質(zhì)的應用僅僅是查詢(xún)嗎?理論根基最深的關(guān)系數據庫最本質(zhì)的技術(shù)進(jìn)步點(diǎn),就是數據存放和數據使用之間的相互分離。查詢(xún)是數據庫的奴隸,發(fā)現才是數據庫的主人;數據只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導在熱心數據庫建設后發(fā)出的感嘆。
由于數據庫文化的迅速普及,用數據庫作為知識源具有堅實(shí)的基礎;另一方面,對于一個(gè)感興趣的特定領(lǐng)域--客觀(guān)世界,先用數據庫技術(shù)將其形式化并組織起來(lái),就會(huì )大大提高知識獲取起點(diǎn),以后從中發(fā)掘或發(fā)現的所有知識都是針對該數據庫而言的。因此,在需求的驅動(dòng)下,很多數據庫學(xué)者轉向對數據倉庫和數據挖掘的研究,從對演繹數據庫的研究轉向對歸納數據庫的研究。
專(zhuān)家系統曾經(jīng)是人工智能研究工作者的驕傲。專(zhuān)家系統實(shí)質(zhì)上是一個(gè)問(wèn)題求解系統,目前的主要理論工具是基于謂詞演算的機器定理證明技術(shù)--二階演繹系統。領(lǐng)域專(zhuān)家長(cháng)期以來(lái)面向一個(gè)特定領(lǐng)域的經(jīng)驗世界,通過(guò)人腦的思維活動(dòng)積累了大量有用信息。
在研制一個(gè)專(zhuān)家系統時(shí),知識工程師首先要從領(lǐng)域專(zhuān)家那里獲取知識,這一過(guò)程實(shí)質(zhì)上是歸納過(guò)程,是非常復雜的個(gè)人到個(gè)人之間的交互過(guò)程,有很強的個(gè)性和隨機性。因此,知識獲取成為專(zhuān)家系統研究中公認的瓶頸問(wèn)題。
其次,知識工程師在整理表達從領(lǐng)域專(zhuān)家那里獲得的知識時(shí),用if-then等類(lèi)的規則表達,約束性太大,用常規數理邏輯來(lái)表達社會(huì )現象和人的思維活動(dòng)局限性太大,也太困難,勉強抽象出來(lái)的規則有很強的工藝色彩,差異性極大,知識表示又成為一大難題。 此外,即使某個(gè)領(lǐng)域的知識通過(guò)一定手段獲取并表達了,但這樣做成的專(zhuān)家系統對常識和百科知識出奇地貧乏,而人類(lèi)專(zhuān)家的知識是以擁有大量常識為基礎的。人工智能學(xué)家Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬(wàn)條事實(shí)和抽象經(jīng)驗法則,離開(kāi)常識的專(zhuān)家系統有時(shí)會(huì )比傻子還傻。例如戰場(chǎng)指揮員會(huì )根據"在某地發(fā)現一只剛死的波斯貓"的情報很快斷定敵高級指揮所的位置,而再好的軍事專(zhuān)家系統也難以顧全到如此的信息。
以上這3大難題大大限制了專(zhuān)家系統的應用,使得專(zhuān)家系統目前還停留在構造諸如發(fā)動(dòng)機故障論斷一類(lèi)的水平上。人工智能學(xué)者開(kāi)始著(zhù)手基于案例的推理,尤其是從事機器學(xué)習的科學(xué)家們,不再滿(mǎn)足自己構造的小樣本學(xué)習模式的象牙塔,開(kāi)始正視現實(shí)生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本,也走上了數據挖掘的道路。 數理統計是應用數學(xué)中最重要、最活躍的學(xué)科之一,它在計算機發(fā)明之前就誕生了,迄今已有幾百年的發(fā)展歷史。如今相當強大有效的數理統計方法和工具,已成為信息咨詢(xún)業(yè)的基礎。信息時(shí)代,咨詢(xún)業(yè)更為發(fā)達。然而,數理統計和數據庫技術(shù)結合得并不算快,數據庫查詢(xún)語(yǔ)言SQL中的聚合函數功能極其簡(jiǎn)單,就是一個(gè)證明。咨詢(xún)業(yè)用數據庫查詢(xún)數據還遠遠不夠。一旦人們有了從數據查詢(xún)到知識發(fā)現、從數據演繹到數據歸納的要求,概率論和數理統計就獲得了新的生命力,所以才會(huì )在DMKD這個(gè)結合點(diǎn)上,立即呈現出"忽如一夜春風(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)"的繁榮景象。
三. 數據挖掘的挖掘任務(wù)和挖掘方法
數據挖掘所能發(fā)現的知識有如下幾種:廣義型知識,反映同類(lèi)事物共同性質(zhì)的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴(lài)或關(guān)聯(lián)的知識;預測型知識,根據歷史的和當前的數據推測未來(lái)數據;偏離型知識,揭示事物偏離常規的異?,F象。所有這些知識都可以在不同的概念層次上被發(fā)現,隨著(zhù)概念樹(shù)的提升,從微觀(guān)到中觀(guān)再到宏觀(guān),以滿(mǎn)足不同用戶(hù)、不同層次決策的需要。例如,從一家超市的數據倉庫中,可以發(fā)現的一條典型關(guān)聯(lián)規則可能是"買(mǎi)面包和黃油的顧客十有八九也買(mǎi)牛奶",也可能是"買(mǎi)食品的顧客幾乎都用信用卡",這種規則對于商家開(kāi)發(fā)和實(shí)施客戶(hù)化的銷(xiāo)售計劃和策略是非常有用的。至于發(fā)現工具和方法,常用的有分類(lèi)、聚類(lèi)、減維、模式識別、可視化、決策樹(shù)、遺傳算法、不確定性處理等。
數據挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類(lèi)法。根據挖掘任務(wù)分,可分為分類(lèi)或預測模型發(fā)現、數據總結、聚類(lèi)、關(guān)聯(lián)規則發(fā)現、序列模式發(fā)現、依賴(lài)關(guān)系或依賴(lài)模型發(fā)現、異常和趨勢發(fā)現等等;根據挖掘對象分,有關(guān)系數據庫、面向對象數據庫、空間數據庫、時(shí)態(tài)數據庫、文本數據源、多媒體數據庫、異質(zhì)數據庫、遺產(chǎn)數據庫以及環(huán)球網(wǎng)Web;根據挖掘方法分,可粗分為:機器學(xué)習方法、統計方法、神經(jīng)網(wǎng)絡(luò )方法和數據庫方法。機器學(xué)習中,可細分為:歸納學(xué)習方法(決策樹(shù)、規則歸納等)、基于范例學(xué)習、遺傳算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類(lèi)分析(系統聚類(lèi)、動(dòng)態(tài)聚類(lèi)等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò )方法中,可細分為:前向神經(jīng)網(wǎng)絡(luò )(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò )(自組織特征映射、競爭學(xué)習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。
以下將主要從挖掘任務(wù)和挖掘方法的角度,著(zhù)重討論數據抽取、分類(lèi)發(fā)現、聚類(lèi)和關(guān)聯(lián)規則發(fā)現四種非常重要的發(fā)現任務(wù)。
1、數據抽取
數據抽取目的是對數據進(jìn)行濃縮,給出它的緊湊描述。傳統的也是最簡(jiǎn)單的數據抽取方法是計算出數據庫的各個(gè)字段上的求和值、平均值、方差值等統計值,或者用直方圖、餅狀圖等圖形方式表示。數據挖掘主要關(guān)心從數據泛化的角度來(lái)討論數據總結。數據泛化是一種把數據庫中的有關(guān)數據從低層次抽象到高層次上的過(guò)程。由于數據庫上的數據或對象所包含的信息總是最原始、基本的信息(這是為了不遺漏任何可能有用的數據信息)。人們有時(shí)希望能從較高層次的視圖上處理或瀏覽數據,因此需要對數據進(jìn)行不同層次上的泛化以適應各種查詢(xún)要求。數據泛化目前主要有兩種技術(shù):多維數據分析方法和面向屬性的歸納方法。
多維數據分析方法是一種數據倉庫技術(shù),也稱(chēng)作聯(lián)機分析處理(OLAP)。數據倉庫是面向決策支持的、集成的、穩定的、不同時(shí)間的歷史數據集合。決策的前提是數據分析。在數據分析中經(jīng)常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類(lèi)操作的計算量特別大。因此一種很自然的想法是,把匯集操作結果預先計算并存儲起來(lái),以便于決策支持系統使用。存儲匯集操作結果的地方稱(chēng)作多維數據庫。
采用多維數據分析方法進(jìn)行數據抽取,它針對的是數據倉庫,數據倉庫存儲的是脫機的歷史數據。為了處理聯(lián)機數據,研究人員提出了一種面向屬性的歸納方法。它的思路是,直接對用戶(hù)感興趣的數據視圖(用一般的SQL查詢(xún)語(yǔ)言即可獲得)進(jìn)行泛化,而不是像多維數據分析方法那樣預先就存儲好了泛化數據。方法的提出者對這種數據泛化技術(shù)稱(chēng)之為面向屬性的歸納方法。原始關(guān)系經(jīng)過(guò)泛化操作后得到的是一個(gè)泛化關(guān)系,它從較高的層次上總結了在低層次上的原始關(guān)系。有了泛化關(guān)系后,就可以對它進(jìn)行各種深入的操作而生成滿(mǎn)足用戶(hù)需要的知識,如在泛化關(guān)系基礎上生成特性規則、判別規則、分類(lèi)規則,以及關(guān)聯(lián)規則等。
2、分類(lèi)發(fā)現
分類(lèi)在數據挖掘中是一項非常重要的任務(wù),目前在商業(yè)上應用最多。分類(lèi)的目的是學(xué)會(huì )一個(gè)分類(lèi)函數或分類(lèi)模型(也常常稱(chēng)作分類(lèi)器),該模型能把數據庫中的數據項映射到給定類(lèi)別中的某一個(gè)。分類(lèi)和回歸都可用于預測。預測的目的是從利用歷史數據紀錄中自動(dòng)推導出對給定數據的推廣描述,從而能對未來(lái)數據進(jìn)行預測。和回歸方法不同的是,分類(lèi)的輸出是離散的類(lèi)別值,而回歸的輸出則是連續數值。這里我們將不討論回歸方法。
要構造分類(lèi)器,需要有一個(gè)訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱(chēng)屬性或特征)值組成的特征向量,此外,訓練樣本還有一個(gè)類(lèi)別標記。一個(gè)具體樣本的形式可為:(v1,v2,...,vn;c);其中vi表示字段值,c表示類(lèi)別。
分類(lèi)器的構造方法有統計方法、機器學(xué)習方法、神經(jīng)網(wǎng)絡(luò )方法等等。統計方法包括貝葉斯法和非參數法(近鄰學(xué)習或基于事例的學(xué)習),對應的知識表示則為判別函數和原型事例。機器學(xué)習方法包括決策樹(shù)法和規則歸納法,前者對應的表示為決策樹(shù)或判別樹(shù),后者則一般為產(chǎn)生式規則。神經(jīng)網(wǎng)絡(luò )方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò )模型(由代表神經(jīng)元的節點(diǎn)和代表聯(lián)接權值的邊組成的一種體系結構),BP算法本質(zhì)上是一種非線(xiàn)性判別函數。另外,最近又興起了一種新的方法:粗糙集(roughset),其知識表示是產(chǎn)生式規則。
不同的分類(lèi)器有不同的特點(diǎn)。有三種分類(lèi)器評價(jià)或比較尺度:1預測準確度;2計算復雜度;3模型描述的簡(jiǎn)潔度。預測準確度是用得最多的一種比較尺度,特別是對于預測型分類(lèi)任務(wù),目前公認的方法是10番分層交叉驗證法。計算復雜度依賴(lài)于具體的實(shí)現細節和硬件環(huán)境,在數據挖掘中,由于操作對象是巨量的數據庫,因此空間和時(shí)間的復雜度問(wèn)題將是非常重要的一個(gè)環(huán)節。對于描述型的分類(lèi)任務(wù),模型描述越簡(jiǎn)潔越受歡迎;例如,采用規則表示的分類(lèi)器構造法就更有用,而神經(jīng)網(wǎng)絡(luò )方法產(chǎn)生的結果就難以理解。
另外要注意的是,分類(lèi)的效果一般和數據的特點(diǎn)有關(guān),有的數據噪聲大,有的有缺值,有的分布稀疏,有的字段或屬性間相關(guān)性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合于各種特點(diǎn)的數據。
3、聚類(lèi)
聚類(lèi)是把一組個(gè)體按照相似性歸成若干類(lèi)別,即"物以類(lèi)聚"。它的目的是使得屬于同一類(lèi)別的個(gè)體之間的距離盡可能的小,而不同類(lèi)別上的個(gè)體間的距離盡可能的大。聚類(lèi)方法包括統計方法、機器學(xué)習方法、神經(jīng)網(wǎng)絡(luò )方法和面向數據庫的方法。
在統計方法中,聚類(lèi)稱(chēng)聚類(lèi)分析,它是多元數據分析的三大方法之一(其它兩種是回歸分析和判別分析)。它主要研究基于幾何距離的聚類(lèi),如歐式距離、明考斯基距離等。傳統的統計聚類(lèi)分析方法包括系統聚類(lèi)法、分解法、加入法、動(dòng)態(tài)聚類(lèi)法、有序樣品聚類(lèi)、有重疊聚類(lèi)和模糊聚類(lèi)等。這種聚類(lèi)方法是一種基于全局比較的聚類(lèi),它需要考察所有的個(gè)體才能決定類(lèi)的劃分;因此它要求所有的數據必須預先給定,而不能動(dòng)態(tài)增加新的數據對象。聚類(lèi)分析方法不具有線(xiàn)性的計算復雜度,難以適用于數據庫非常大的情況。
在機器學(xué)習中聚類(lèi)稱(chēng)作無(wú)監督或無(wú)教師歸納;因為和分類(lèi)學(xué)習相比,分類(lèi)學(xué)習的例子或數據對象有類(lèi)別標記,而要聚類(lèi)的例子則沒(méi)有標記,需要由聚類(lèi)學(xué)習算法來(lái)自動(dòng)確定。很多人工智能文獻中,聚類(lèi)也稱(chēng)概念聚類(lèi);因為這里的距離不再是統計方法中的幾何距離,而是根據概念的描述來(lái)確定的。當聚類(lèi)對象可以動(dòng)態(tài)增加時(shí),概念聚類(lèi)則稱(chēng)是概念形成。
在神經(jīng)網(wǎng)絡(luò )中,有一類(lèi)無(wú)監督學(xué)習方法:自組織神經(jīng)網(wǎng)絡(luò )方法;如Kohonen自組織特征映射網(wǎng)絡(luò )、競爭學(xué)習網(wǎng)絡(luò )等等。在數據挖掘領(lǐng)域里,見(jiàn)報道的神經(jīng)網(wǎng)絡(luò )聚類(lèi)方法主要是自組織特征映射方法,IBM在其發(fā)布的數據挖掘白皮書(shū)中就特別提到了使用此方法進(jìn)行數據庫聚類(lèi)分割。
4、關(guān)聯(lián)規則發(fā)現
關(guān)聯(lián)規則是形式如下的一種規則,"在購買(mǎi)面包和黃油的顧客中,有90%的人同時(shí)也買(mǎi)了牛奶"(面包+黃油(牛奶)。用于關(guān)聯(lián)規則發(fā)現的主要對象是事務(wù)型數據庫,其中針對的應用則是售貨數據,也稱(chēng)貨籃數據。一個(gè)事務(wù)一般由如下幾個(gè)部分組成:事務(wù)處理時(shí)間,一組顧客購買(mǎi)的物品,有時(shí)也有顧客標識號(如信用卡號)。
由于條形碼技術(shù)的發(fā)展,零售部門(mén)可以利用前端收款機收集存儲大量的售貨數據。因此,如果對這些歷史事務(wù)數據進(jìn)行分析,則可對顧客的購買(mǎi)行為提供極有價(jià)值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經(jīng)常同時(shí)買(mǎi)的商品放在一起),幫助如何規劃市場(chǎng)(怎樣相互搭配進(jìn)貨)。由此可見(jiàn),從事務(wù)數據中發(fā)現關(guān)聯(lián)規則,對于改進(jìn)零售業(yè)等商業(yè)活動(dòng)的決策非常重要。
設I={i1,i2,...,im}是一組物品集(一個(gè)商場(chǎng)的物品可能有上萬(wàn)種),D是一組事務(wù)集(稱(chēng)之為事務(wù)數據庫)。D中的每個(gè)事務(wù)T是一組物品,顯然滿(mǎn)足TI。稱(chēng)事務(wù)T支持物品集X,如果XT。關(guān)聯(lián)規則是如下形式的一種蘊含:XY,其中XI,YI,且X∩Y=I。
(1)稱(chēng)物品集X具有大小為s的支持度,如果D中有s%的事務(wù)支持物品集X;
(2)稱(chēng)關(guān)聯(lián)規則XY在事務(wù)數據庫D中具有大小為s的支持度,如果物品集X∪Y的支持度為s;
(3)稱(chēng)規則XY在事務(wù)數據庫D中具有大小為c的可信度,如果D中支持物品集X的事務(wù)中有c%的事務(wù)同時(shí)也支持物品集Y。
如果不考慮關(guān)聯(lián)規則的支持度和可信度,那么在事務(wù)數據庫中存在無(wú)窮多的關(guān)聯(lián)規則。事實(shí)上,人們一般只對滿(mǎn)足一定的支持度和可信度的關(guān)聯(lián)規則感興趣。在文獻中,一般稱(chēng)滿(mǎn)足一定要求的(如較大的支持度和可信度)的規則為強規則。因此,為了發(fā)現出有意義的關(guān)聯(lián)規則,需要給定兩個(gè)閾值:最小支持度和最小可信度。前者即用戶(hù)規定的關(guān)聯(lián)規則必須滿(mǎn)足的最小支持度,它表示了一組物品集在統計意義上的需滿(mǎn)足的最低程度;后者即用戶(hù)規定的關(guān)聯(lián)規則必須滿(mǎn)足的最小可信度,它反應了關(guān)聯(lián)規則的最低可靠度。
在實(shí)際情況下,一種更有用的關(guān)聯(lián)規則是泛化關(guān)聯(lián)規則。因為物品概念間存在一種層次關(guān)系,如夾克衫、滑雪衫屬于外套類(lèi),外套、襯衣又屬于衣服類(lèi)。有了層次關(guān)系后,可以幫助發(fā)現一些更多的有意義的規則。例如?quot;買(mǎi)外套買(mǎi)鞋子"(此處,外套和鞋子是較高層次上的物品或概念,因而該規則是一種泛化的關(guān)聯(lián)規則)。由于商店或超市中有成千上萬(wàn)種物品,平均來(lái)講,每種物品(如滑雪衫)的支持度很低,因此有時(shí)難以發(fā)現有用規則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發(fā)現有用的規則。
另外,關(guān)聯(lián)規則發(fā)現的思路還可以用于序列模式發(fā)現。用戶(hù)在購買(mǎi)物品時(shí),除了具有上述關(guān)聯(lián)規律,還有時(shí)間上或序列上的規律,因為,很多時(shí)候顧客會(huì )這次買(mǎi)這些東西,下次買(mǎi)同上次有關(guān)的一些東西,接著(zhù)又買(mǎi)有關(guān)的某些東西。
四.數據挖掘工具的評價(jià)標準
如何選擇滿(mǎn)足自己需要的數據挖掘工具呢?評價(jià)一個(gè)數據挖掘工具,需要從以下幾個(gè)方面來(lái)考慮:
1產(chǎn)生的模式種類(lèi)的多少
2.解決復雜問(wèn)題的能力
數據量的增大,對模式精細度、準確度要求的增高都會(huì )導致問(wèn)題復雜性的增大。數據挖掘系統可以提供下列方法解決復雜問(wèn)題:
多種模式多種類(lèi)別模式的結合使用有助于發(fā)現有用的模式,降低問(wèn)題復雜性。例如,首先用聚類(lèi)的方法把數據分組,然后再在各個(gè)組上挖掘預測性的模式,將會(huì )比單純在整個(gè)數據集上進(jìn)行操作更有效、準確度更高。
多種算法很多模式,特別是與分類(lèi)有關(guān)的模式,可以有不同的算法來(lái)實(shí)現,各有各的優(yōu)缺點(diǎn),適用于不同的需求和環(huán)境。數據挖掘系統提供多種途徑產(chǎn)生同種模式,將更有能力解決復雜問(wèn)題。 驗證方法在評估模式時(shí),有多種可能的驗證方法。比較成熟的方法像N層交叉驗證或Bootstrapping等可以控制,以達到最大的準確度。
數據選擇和轉換模式通常被大量的數據項隱藏。有些數據是冗余的,有些數據是完全無(wú)關(guān)的。而這些數據項的存在會(huì )影響到有價(jià)值的模式的發(fā)現。數據挖掘系統的一個(gè)很重要功能就是能夠處理數據復雜性,提供工具,選擇正確的數據項和轉換數據值。
可視化可視化工具提供直觀(guān)、簡(jiǎn)潔的機制表示大量的信息。這有助于定位重要的數據,評價(jià)模式的質(zhì)量,從而減少建模的復雜性。 擴展性為了更有效地提高處理大量數據的效率,數據挖掘系統的擴展性十分重要。需要了解的是:數據挖掘系統能否充分利用硬件資源?是否支持并行計算?算法本身設計為并行的或利用了DBMS的并行性能?支持哪種并行計算機,SMP服務(wù)器還是MPP服務(wù)器?當處理器的數量增加時(shí),計算規模是否相應增長(cháng)?是否支持數據并行存儲?
為單處理器的計算機編寫(xiě)的數據挖掘算法不會(huì )在并行計算機上自動(dòng)以更快的速度運行。為充分發(fā)揮并行計算的優(yōu)點(diǎn),需要編寫(xiě)支持并行計算的算法。
3.易操作性
易操作性是一個(gè)重要的因素。有的工具有圖形化界面,引導用戶(hù)半自動(dòng)化地執行任務(wù),有的使用腳本語(yǔ)言。有些工具還提供數據挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的編程語(yǔ)言中。
模式可以運用到已存在或新增加的數據上。有的工具有圖形化的界面,有的允許通過(guò)使用C這樣的程序語(yǔ)言或SQL中的規則集,把模式導出到程序或數據庫中。
4.數據存取能力
好的數據挖掘工具可以使用SQL語(yǔ)句直接從DBMS中讀取數據。這樣可以簡(jiǎn)化數據準備工作,并且可以充分利用數據庫的優(yōu)點(diǎn)(比如平行讀?。?。沒(méi)有一種工具可以支持大量的DBMS,但可以通過(guò)通用的接口連接大多數流行的DBMS。Microsoft的ODBC就是一個(gè)這樣的接口。
5.與其他產(chǎn)品的接口
有很多別的工具可以幫助用戶(hù)理解數據,理解結果。這些工具可以是傳統的查詢(xún)工具、可視化工具、OLAP工具。數據挖掘工具是否能提供與這些工具集成的簡(jiǎn)易途徑?
因為數據挖掘工具需要考慮的因素很多,很難按照原則給工具排一個(gè)優(yōu)劣次序。最重要的還是用戶(hù)的需要,根據特定的需求加以選擇。數據挖掘工具可以給很多產(chǎn)業(yè)帶來(lái)收益。國外的許多行業(yè)如通信、信用卡公司、銀行和股票交易所、保險公司、廣告公司、商店等已經(jīng)大量利用數據挖掘工具來(lái)協(xié)助其業(yè)務(wù)活動(dòng),國內在這方面的應用還處于起步階段,對數據挖掘技術(shù)和工具的研究人員以及開(kāi)發(fā)商來(lái)說(shuō),我國是一個(gè)有巨大潛力的市場(chǎng)。
聯(lián)系客服