數據挖掘

高級技術(shù)培訓中心（www.itisedu.com）

什么叫數據挖掘（Data Mining）？

關(guān)于定義，各人的說(shuō)法不一?；旧衔覀兛梢杂靡粋€(gè)例子講清楚：先給你一個(gè)大的數據集──假設你可以從中讀取數據，下面的問(wèn)題是：從這里你可以得到什么？從某種角度來(lái)看，這是百分之百的統計分析工作，只是數據集太多的緣故罷了。但我們并不想忘記這些數據集是做 IT 的人這么多年來(lái)逐漸制造出來(lái)的，更何況他們對于如何有效而快速地存儲、選取和管理數據，確是有一套真功夫。在 IT 的骨架上把統計的精髓放進(jìn)去，這的確是對現在這個(gè)信息時(shí)代的大挑戰。

　　時(shí)代變了，現在的數據來(lái)得既多又快還便宜，多到?jīng)]有人有時(shí)間去看的程度。這就如同我們的醫療體系。早先的醫生還要望聞問(wèn)切，在少量的數據中，設法提取、組合出最好的治療方案?，F在則是一個(gè)名醫，一上午要在門(mén)診醫治一百五十個(gè)病人以上。他只能憑某種算法、也就是經(jīng)驗來(lái)看?。?jiǎn)?wèn)一兩個(gè)問(wèn)題，聽(tīng)一兩個(gè)問(wèn)題，然后開(kāi)藥。這種對數據的不同的處理方式是數據挖掘和傳統的數據分析的主要區別。

　　說(shuō)實(shí)在的，我們已經(jīng)在某些方面具有相當的信息化程度了。你去任何一家醫院看病，哪一個(gè)窗口沒(méi)放著(zhù)一臺PC？醫生暗示你可以離開(kāi)的時(shí)候，值班的護士已經(jīng)在她的 PC 上鍵入了許多你的資料。于是你直接可以去劃價(jià)、取藥，連下一次的預約也有人安排好了。前天，我去醫院借了一張X光片，一位五十多歲的老職員用“一陽(yáng)指”在鍵盤(pán)上一步一個(gè)“腳印”地敲了不知多久，才輸入了該有的個(gè)人信息，然后大家就都松一口似地讓計算機去跑，最后當然是拿到X光片。這時(shí)回顧身后，已排了一條長(cháng)龍。

　　這種情況，也暗示著(zhù)目前信息社會(huì )的一類(lèi)尷尬問(wèn)題：很多事情都還配不上如此快的計算機—老職員的手指速度固然配不上，我們做統計的人和現有的某些統計方法也配不上，甚至于很多統計觀(guān)念恐怕也都配不上。于是 IT 的人就跳進(jìn)來(lái)做了個(gè)項目：既然有了花大錢(qián)做出來(lái)的數據庫，而且這么多年下來(lái)數據堆得滿(mǎn)坑滿(mǎn)谷，好歹要告訴出錢(qián)的老板“這有什么用”。于是，DM便應運而生了。

　　
如何看待數據挖掘

　　數據挖掘是先有了數據才興起的行業(yè)。我不想說(shuō)“學(xué)問(wèn)”，因為到現在為止，我好像都看不到大學(xué)問(wèn)。數據挖掘能幫我做什么？不同的人有不同的看法，比較樂(lè )觀(guān)的是Berry and Linoff (1997) 的說(shuō)法：分析報告給你后見(jiàn)之明 (hindsight)；統計分析給你先機 (foresight)；數據挖掘給你洞察力 (insight)。

　　這話(huà)說(shuō)得太強，我不是那么地相信。因為這三者都是在既有的數據上做分析，在概念上應該并無(wú)本質(zhì)區別，差別只是手上的數據集的大小和性質(zhì)，因此，由方法的不同才有定義的不同。

　　較負面的理解來(lái)自Friedman (1997)，他說(shuō)：“Data mining is a commercial enterprise that seeks to mine the miners。（數據挖掘就是商業(yè)企業(yè)竭力去尋找挖掘者的過(guò)程。）”這句話(huà)有多少真實(shí)的成分，我并不清楚，但是酸味還是有一點(diǎn)的。在雅虎上鍵入“Data Mining”，立刻便找到一百五十多個(gè)網(wǎng)址。如果用Google 搜尋，它在0.34秒內就找到1,260,000項查詢(xún)結果。這是在方法論都還沒(méi)有成熟之前便已有大量商品充斥的情形?？雌饋?lái)真是商機無(wú)限。在另一方面，我卻在文獻上讀到：“…… while I appreciate the importance of data mining, in practice the profit it brings has turned out to be surprisingly limited in many key businesses.（雖然我認可數據挖掘重要性，事實(shí)上，在很多關(guān)鍵的業(yè)務(wù)中，它所帶來(lái)的利潤已證明出奇有限。” (Kann 2000)

　　多半的數據庫在建造時(shí)都另有目的，并不是設計來(lái)給大家挖掘的。上帝給我們大海，也許只是想給我們鹽?，F在鹽的利潤有限，大家就拼命去提煉鈾，結果自然就不會(huì )十分理想。

　　我認為，比較中肯的是 Hand et al. (2000) 的說(shuō)法：“Data mining is the process of seeking interesting or valuable information in large data bases.（數據挖掘是一種在大型數據庫中尋找你感興趣或是有價(jià)值信息的過(guò)程。）”

　　
挖掘需要“用心看”

　　Demming (1943) 曾說(shuō)過(guò)：“搜集數據的目的是為了行動(dòng)。”這是在數據的搜集并不便宜的時(shí)候所說(shuō)的話(huà)?，F在要反過(guò)來(lái)看：已經(jīng)有了一大堆數據，當初只是為了搜集而搜集──因為反正不貴，而且說(shuō)不定某一天會(huì )有用─現在我們應該問(wèn)，這些數據可以提供怎樣的信息，能讓數據的所有者采取何種有效的行動(dòng)？我的意思是我們需要用心地去看這些數據。“用心看”有兩個(gè)角度：整體和局部。

　　從整體看: 模型

　　從整體的角度來(lái)看一個(gè)數據集，是靠統計學(xué)里面的抽樣方法就可以發(fā)揮得不錯的。抽樣的要點(diǎn)是細化──用一組較小的、容易處理的精選的數據來(lái)反映整體。在這里我們可以做一大堆傳統的建模工作，但這里面最主要的觀(guān)念是抽樣。

　　例如 SAS 的Enterprise Miner軟件中所構建出來(lái)的“表格”，就是全部數據的抽樣所得。從抽樣的觀(guān)點(diǎn)來(lái)看，數據量再多也不是問(wèn)題──它反而可使抽樣理論更加簡(jiǎn)單。在數據庫上抽樣，成本低，且沒(méi)有我們最頭痛的non-response（無(wú)反應）問(wèn)題。這一部分，可以說(shuō)是所有我們想做的理論和方法都十分成熟，只要找一群還不錯的人，將這些已知的事物組合包裝就好。在表格上做傳統分析，最后的結果當然是一個(gè)可以用來(lái)描繪所有數據之間的關(guān)系的模型。

　　從局部看: 模式發(fā)現

　　從局部的角度來(lái)看數據挖掘，到目前為止，主要的目的是模式發(fā)現。這和我們常聽(tīng)到的模式識別頗有不同。用雷達找飛機的工作，算是后者──我們知道飛機是我們要找的對象。但是在數據挖掘中，我們在通常情況下并不知道我們要找的東西是什么。在技術(shù)上，這也不能通過(guò)抽樣的方法來(lái)做。模式是數據的局部結構，在這一部分，數據挖掘強調的方法是算法。數據一多，光憑人力是不能完全解決問(wèn)題的，我們只有靠明確的指令讓計算機一個(gè)一個(gè)幫我們找。那么在這里，我們就完全用不上統計方法嗎？也不盡然。在提取訓練樣本（training sample）的時(shí)候，我們是可以把實(shí)驗設計的想法放進(jìn)去的。

　　編者按：

　　數據挖掘應建立在聯(lián)機分析處理(On Line Analytical Processing，OLAP)的數據環(huán)境基礎之上，而數據倉庫技術(shù)能夠滿(mǎn)足數據挖掘技術(shù)對數據環(huán)境的要求。它從OLTP系統、異構分散的外部數據源、脫機的歷史業(yè)務(wù)數據中獲取數據并進(jìn)行處理。

　　當今數據容量規模已經(jīng)達到萬(wàn)億字節（TB）的水平。過(guò)量的數據被人們稱(chēng)為信息爆炸，帶來(lái)的挑戰是：一方面規模龐大、紛繁復雜的數據體系讓使用者漫無(wú)頭緒、無(wú)從下手；另一方面在這些大量數據的背后卻隱藏著(zhù)很多具有決策意義的有價(jià)值的信息。那么，如何發(fā)現這些有用的知識，使之為管理決策和經(jīng)營(yíng)戰略發(fā)展服務(wù)？計算機科學(xué)給出的最新回答是：數據挖掘（Data Mining）。

　　一般說(shuō)來(lái)，數據挖掘是一個(gè)利用各種分析方法和分析工具在大規模海量數據中建立模型和發(fā)現數據間關(guān)系的過(guò)程，這些模型和關(guān)系可以用來(lái)做出決策和預測。支持大規模數據分析的方法和過(guò)程，選擇或者建立一種適合數據挖掘應用的數據環(huán)境是數據挖掘研究的重要課題之一。

　　
建立適合的數據環(huán)境

　　數據挖掘應建立在聯(lián)機分析處理(On Line Analytical Processing，OLAP)的數據環(huán)境基礎之上。數據挖掘對大量數據的探索式分析的起點(diǎn)是OLAP。數據挖掘需要對大量數據進(jìn)行反復查詢(xún)操作，關(guān)心數據存取方式的方便性與可操作性。

　　聯(lián)機分析處理和傳統的聯(lián)機事務(wù)處理(On Line Transaction Processing, OLTP)是兩種性質(zhì)不同的數據處理方式。OLTP主要用來(lái)完成基礎業(yè)務(wù)數據的增、刪、改等操作，如民航訂票系統、銀行儲蓄系統等等，對響應時(shí)間要求比較高，強調的是密集數據更新處理的性能和系統的可靠性及效率。而OLAP應用是對用戶(hù)當前及歷史數據進(jìn)行分析、輔助領(lǐng)導決策，主要通過(guò)多維數據的查詢(xún)、旋轉、鉆取和切片等關(guān)鍵技術(shù)對數據進(jìn)行分析和報表。

　　目前，多數企業(yè)內部的數據狀況是分散的，業(yè)務(wù)數據往往被存放在缺乏統一設計和管理的異構環(huán)境中，不易綜合查詢(xún)訪(fǎng)問(wèn)，而且還有大量的歷史數據處于脫機狀態(tài)，不能在線(xiàn)集中存儲查詢(xún)。數據挖掘在對這些數據進(jìn)行分析前，必須對這些數據進(jìn)行不同程度的整合和清理，這是數據挖掘的首要環(huán)節，但一般的OLTP系統的數據環(huán)境是不具備這種能力的。

　　因此，合理而科學(xué)的數據環(huán)境是確保數據挖掘有效和正確實(shí)施的基礎和關(guān)鍵。它需要支持OLAP數據系統與OLTP數據系統的分離，需要服務(wù)于數據挖掘總體目標的數據再組織，需要有單獨的數據分析和數據處理環(huán)境。數據倉庫正是為了構建這種新的分析處理環(huán)境而出現的一種數據存儲和組織技術(shù)產(chǎn)品。

　　
數據倉庫技術(shù)的引入

　　數據倉庫技術(shù)能夠滿(mǎn)足數據挖掘技術(shù)對數據環(huán)境的要求。實(shí)際上，數據倉庫技術(shù)所要研究和解決的問(wèn)題就是從OLTP系統、異構分散的外部數據源、脫機的歷史業(yè)務(wù)數據中獲取數據，處理后為數據分析和管理決策提供應用服務(wù)。

　　公認的數據倉庫概念是W.H.Inmon在《建立數據倉庫》一書(shū)中提出的：數據倉庫就是面向主題的、集成的、不可更新的(穩定性)隨時(shí)間不斷變化（不同時(shí)間）的數據集合，用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。

　　數據倉庫中的數據是面向主題的，它與傳統數據庫中的面向應用相對應。數據倉庫的主題是一個(gè)在較高層次上將數據歸類(lèi)的標準，每一個(gè)主題對應一個(gè)宏觀(guān)的分析領(lǐng)域；數據倉庫的集成特性是指在數據進(jìn)入數據倉庫之前，必須經(jīng)過(guò)數據加工和集成，這是建立數據倉庫的關(guān)鍵步驟。它能夠統一原始數據中的矛盾之處，還能夠將原始數據結構從面向應用向面向主題轉變；數據倉庫的穩定性是指數據倉庫反映的是歷史數據的內容，而不是日常事務(wù)處理產(chǎn)生的數據，數據經(jīng)加工和集成進(jìn)入數據倉庫后是極少或根本不修改的；數據倉庫是不同時(shí)間的數據集合，它要求數據倉庫中的數據保存時(shí)限能滿(mǎn)足進(jìn)行決策分析的需要，而且數據倉庫中的數據都要標明該數據的時(shí)間屬性。

　　需要指出的是，數據倉庫中的數據并不是最新的、專(zhuān)有的，而是來(lái)源于其它數據庫的。數據倉庫的建立并不是要取代數據庫，它要建立在一個(gè)較全面和完善的信息應用的基礎上，用于支持高層決策分析，而原有的事務(wù)處理數據庫在總體數據環(huán)境中承擔的是日?；A業(yè)務(wù)的處理任務(wù)。數據倉庫是數據庫技術(shù)的一種新的應用，而且到目前為止，數據倉庫大部分還是用關(guān)系數據庫管理系統來(lái)管理其中的數據。

　　與關(guān)系數據庫不同的是，數據倉庫至今并沒(méi)有嚴格的數學(xué)理論基礎，它更偏向于工程。由于數據倉庫的這種工程特性，因而在技術(shù)上可以根據它的工作過(guò)程分為：數據的抽取、數據的存儲和管理、數據的展現等關(guān)鍵技術(shù)。

　　◆ 數據的抽取

　　數據的抽取是數據進(jìn)入倉庫的入口。由于數據倉庫是一個(gè)獨立的數據環(huán)境，它需要通過(guò)抽取過(guò)程將數據從聯(lián)機事務(wù)處理系統、外部數據源、脫機的數據存儲介質(zhì)中導入數據倉庫。數據抽取在技術(shù)上主要涉及互連、復制、增量、轉換、調度和監控等幾個(gè)方面的處理。在數據抽取方面，未來(lái)的技術(shù)發(fā)展將集中在系統功能集成化方面，以適應數據倉庫本身或數據源的變化，使系統更便于管理和維護。

　　◆ 數據的存儲和管理

　　數據倉庫的組織管理方式?jīng)Q定了它有別于傳統數據庫的特性，也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務(wù)處理大得多，且隨時(shí)間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優(yōu)化查詢(xún)等。目前，許多數據庫廠(chǎng)家提供的技術(shù)解決方案是擴展關(guān)系型數據庫的功能，將普通關(guān)系數據庫改造成適合擔當數據倉庫的服務(wù)器。

　　◆數據的展現

　　在數據展現方面主要的方式有：

　　查詢(xún)：實(shí)現預定義查詢(xún)、動(dòng)態(tài)查詢(xún)、OLAP查詢(xún)與決策支持智能查詢(xún)；報表：產(chǎn)生關(guān)系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表；可視化：用易于理解的點(diǎn)線(xiàn)圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計算機動(dòng)畫(huà)技術(shù)表現復雜數據及其相互關(guān)系；統計：進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析；挖掘：利用數據挖掘等方法，從數據中得到關(guān)于數據關(guān)系和模式的知識。

　　
數據挖掘與數據倉庫融合發(fā)展

　　數據挖掘和數據倉庫的協(xié)同工作，一方面，可以迎合和簡(jiǎn)化數據挖掘過(guò)程中的重要步驟，提高數據挖掘的效率和能力，確保數據挖掘中數據來(lái)源的廣泛性和完整性。另一方面，數據挖掘技術(shù)已經(jīng)成為數據倉庫應用中極為重要和相對獨立的方面和工具。

　　數據挖掘和數據倉庫是融合與互動(dòng)發(fā)展的，其學(xué)術(shù)研究?jì)r(jià)值和應用研究前景將是令人振奮的。它是數據挖掘專(zhuān)家、數據倉庫技術(shù)人員和行業(yè)專(zhuān)家共同努力的成果，更是廣大渴望從數據庫“奴隸”到數據庫“主人”轉變的企業(yè)最終用戶(hù)的通途。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

數據挖掘