關(guān)鍵詞:數據挖掘 數據集合
1. 引言
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過(guò)程。隨著(zhù)信息技術(shù)的高速發(fā)展,人們積累的數據量急劇增長(cháng),動(dòng)輒以TB計,如何從海量的數據中提取有用的知識成為當務(wù)之急。數據挖掘就是為順應這種需要應運而生發(fā)展起來(lái)的數據處理技術(shù)。是知識發(fā)現(Knowledge Discovery in Database)的關(guān)鍵步驟。
2. 數據挖掘的任務(wù)
數據挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)、預測、時(shí)序模式和偏差分析等。
?、抨P(guān)聯(lián)分析(association analysis)
關(guān)聯(lián)規則挖掘是由Rakesh Apwal等人首先提出的。兩個(gè)或兩個(gè)以上變量的取值之間存在某種規律性,就稱(chēng)為關(guān)聯(lián)。數據關(guān)聯(lián)是數據庫中存在的一類(lèi)重要的、可被發(fā)現的知識。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數據庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閥值來(lái)度量關(guān)聯(lián)規則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數,使得所挖掘的規則更符合需求。
?、凭垲?lèi)分析(clustering)
聚類(lèi)是把數據按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數據彼此相似,不同類(lèi)中的數據相異。聚類(lèi)分析可以建立宏觀(guān)的概念,發(fā)現數據的分布模式,以及可能的數據屬性之間的相互關(guān)系。
?、欠诸?lèi)(classification)
分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數據的整體信息,即該類(lèi)的內涵描述,并用這種描述來(lái)構造模型,一般用規則或決策樹(shù)模式表示。分類(lèi)是利用訓練數據集通過(guò)一定的算法而求得分類(lèi)規則。分類(lèi)可被用于規則描述和預測。
?、阮A測(predication)
預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來(lái)數據的種類(lèi)及特征進(jìn)行預測。預測關(guān)心的是精度和不確定性,通常用預測方差來(lái)度量。
?、蓵r(shí)序模式(time-series pattern)
時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數據預測未來(lái)的值,但這些數據的區別是變量所處時(shí)間的不同。
?、势罘治?deviation)
在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發(fā)現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀(guān)察結果與參照之間的差別。
3.數據挖掘對象
根據信息存儲格式,用于挖掘的對象有關(guān)系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時(shí)態(tài)數據庫、異質(zhì)數據庫以及Internet等。
4.數據挖掘流程
?、哦x問(wèn)題:清晰地定義出業(yè)務(wù)問(wèn)題,確定數據挖掘的目的。
?、茢祿蕚洌簲祿蕚浒ǎ哼x擇數據--在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理--進(jìn)行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無(wú)效數據等。
?、菙祿诰颍焊鶕祿δ艿念?lèi)型和和數據的特點(diǎn)選擇相應的算法,在凈化和轉換過(guò)的數據集上進(jìn)行數據挖掘。
?、冉Y果分析:對數據挖掘的結果進(jìn)行解釋和評價(jià),轉換成為能夠最終被用戶(hù)理解的知識。
?、派窠?jīng)網(wǎng)絡(luò )方法
神經(jīng)網(wǎng)絡(luò )由于本身良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò )模型主要分3大類(lèi):以感知機、BP反向傳播模型、函數型網(wǎng)絡(luò )為代表的,用于分類(lèi)、預測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò )模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計算的反饋式神經(jīng)網(wǎng)絡(luò )模型;以ART模型、Koholon模型為代表的,用于聚類(lèi)的自組織映射方法。神經(jīng)網(wǎng)絡(luò )方法的缺點(diǎn)是"黑箱"性,人們難以理解網(wǎng)絡(luò )的學(xué)習和決策過(guò)程。
?、七z傳算法
遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質(zhì)使得它在數據挖掘中被加以應用。
Sunil已成功地開(kāi)發(fā)了一個(gè)基于遺傳算法的數據挖掘工具,利用該工具對兩個(gè)飛機失事的真實(shí)數據庫進(jìn)行了數據挖掘實(shí)驗,結果表明遺傳算法是進(jìn)行數據挖掘的有效方法之一[4]。遺傳算法的應用還體現在與神經(jīng)網(wǎng)絡(luò )、粗集等技術(shù)的結合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò )結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結合訓練神經(jīng)網(wǎng)絡(luò ),然后從網(wǎng)絡(luò )提取規則等。但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問(wèn)題尚未解決。
?、菦Q策樹(shù)方法
決策樹(shù)是一種常用于預測模型的算法,它通過(guò)將大量數據有目的分類(lèi),從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類(lèi)速度快,特別適合大規模的數據處理。最有影響和最早的決策樹(shù)方法是由Quinlan提出的著(zhù)名的基于信息熵的ID3算法。它的主要問(wèn)題是:ID3是非遞增學(xué)習算法;ID3決策樹(shù)是單變量決策樹(shù),復雜概念的表達困難;同性間的相互關(guān)系強調不夠;抗噪性差。針對上述問(wèn)題,出現了許多較好的改進(jìn)算法,如 Schlimmer和Fisher設計了ID4遞增式學(xué)習算法;鐘鳴,陳文偉等提出了IBLE算法等。
?、却旨椒?/p>
粗集理論是一種研究不精確、不確定知識的數學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡(jiǎn)化輸入信息的表達空間;算法簡(jiǎn)單,易于操作。粗集處理的對象是類(lèi)似二維關(guān)系表的信息表。目前成熟的關(guān)系數據庫管理系統和新發(fā)展起來(lái)的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實(shí)的基礎。但粗集的數學(xué)基礎是集合論,難以直接處理連續的屬性。而現實(shí)信息表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)?,F在國際上已經(jīng)研制出來(lái)了一些基于粗集的工具應用軟件,如加拿大Regina大學(xué)開(kāi)發(fā)的KDD-R;美國Kansas大學(xué)開(kāi)發(fā)的LERS等。
?、筛采w正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的算法有Michalski的AQ11方法、洪家榮改進(jìn)的AQ15方法以及他的AE5方法。
?、式y計分析方法
在數據庫字段項之間存在兩種關(guān)系:函數關(guān)系(能用函數公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用統計學(xué)方法,即利用統計學(xué)原理對數據庫中的信息進(jìn)行分析??蛇M(jìn)行常用統計(求大量數據中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來(lái)表示變量間的數量關(guān)系)、相關(guān)分析(用相關(guān)系數來(lái)度量變量間的相關(guān)程度)、差異分析(從樣本統計量的值得出差異來(lái)確定總體參數之間是否存在差異)等。
?、四:椒?/p>
即利用模糊集合理論對實(shí)際問(wèn)題進(jìn)行模糊評判、模糊決策、模糊模式識別和模糊聚類(lèi)分析。系統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來(lái)刻畫(huà)模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型--云模型,并形成了云理論。
6.評價(jià)數據挖掘軟件需要考慮的問(wèn)題
越來(lái)越多的軟件供應商加入了數據挖掘這一領(lǐng)域的競爭。用戶(hù)如何正確評價(jià)一個(gè)商業(yè)軟件,選擇合適的軟件成為數據挖掘成功應用的關(guān)鍵。
評價(jià)一個(gè)數據挖掘軟件主要應從以下四個(gè)主要方面:
?、庞嬎阈阅埽喝缭撥浖芊裨诓煌纳虡I(yè)平臺運行;軟件的架構;能否連接不同的數據源;操作大數據集時(shí),性能變化是線(xiàn)性的還是指數的;算的效率;是否基于組件結構易于擴展;運行的穩定性等;
?、乒δ苄裕喝畿浖欠裉峁┳銐蚨鄻拥乃惴?能否避免挖掘過(guò)程黑箱化;軟件提供的算法能否應用于多種類(lèi)型的數據;用戶(hù)能否調整算法和算法的參數;軟件能否從數據集隨機抽取數據建立預挖掘模型;能否以不同的形式表現挖掘結果等;
?、强捎眯裕喝缬脩?hù)界面是否友好;軟件是否易學(xué)易用;軟件面對的用戶(hù):初學(xué)者,高級用戶(hù)還是專(zhuān)家?錯誤報告對用戶(hù)調試是否有很大幫助;軟件應用的領(lǐng)域:是專(zhuān)攻某一專(zhuān)業(yè)領(lǐng)域還是適用多個(gè)領(lǐng)域等;
?、容o助功能:如是否允許用戶(hù)更改數據集中的錯誤值或進(jìn)行數據清洗;是否允許值的全局替代;能否將連續數據離散化;能否根據用戶(hù)制定的規則從數據集中提取子集;能否將數據中的空值用某一適當均值或用戶(hù)指定的值代替;能否將一次分析的結果反饋到另一次分析中,等等。
7.結束語(yǔ)
數據挖掘技術(shù)是一個(gè)年輕且充滿(mǎn)希望的研究領(lǐng)域,商業(yè)利益的強大驅動(dòng)力將會(huì )不停地促進(jìn)它的發(fā)展.每年都有新的數據挖掘方法和模型問(wèn)世,人們對它的研究正日益廣泛和深入。盡管如此,數據挖掘技術(shù)仍然面臨著(zhù)許多問(wèn)題和挑戰:如數據挖掘方法的效率亟待提高,尤其是超大規模數據集中數據挖掘的效率;開(kāi)發(fā)適應多數據類(lèi)型、容噪的挖掘方法,以解決異質(zhì)數據集的數據挖掘問(wèn)題;動(dòng)態(tài)數據和知識的數據挖掘;網(wǎng)絡(luò )與分布式環(huán)境下的數據挖掘等;另外,近年來(lái)多媒體數據庫發(fā)展很快,面向多媒體數據庫的挖掘技術(shù)和軟件今后將成為研究開(kāi)發(fā)的熱點(diǎn)。
聯(lián)系客服