發(fā)起《數據挖掘研究院》已有四年了,很遺憾四年多的時(shí)間沒(méi)有完全將個(gè)人的精力投入進(jìn)去,不可否認做數據挖掘可以讓我得到很好的發(fā)展,只是我現在選擇的路需要首先解決生存問(wèn)題。
今天引發(fā)我寫(xiě)這篇《數據挖掘入門(mén)》的是依一個(gè)在MS做硬件的網(wǎng)友要求寫(xiě)的,僅作科普和掃盲,要是數據挖掘大拿看了有不同意見(jiàn)的請指點(diǎn),很多內容是我個(gè)人淺見(jiàn)。
數據挖掘 的概念很早就提出來(lái)了,到現在有十多年的歷史,它本身屬于一個(gè)交叉學(xué)科,和計算機編程,機器學(xué)習,人工智能,數理統計等學(xué)科相關(guān)聯(lián),和他們有千絲萬(wàn)縷的聯(lián)系。
1.數據挖掘從業(yè)人員的愿景:
數據挖掘就業(yè)的途徑從我看來(lái)有以下幾種,(注意:本文所說(shuō)的數據挖掘不包括數據倉庫或數據庫管理員的角色)。
A:做科研(在高校、科研單位以及大型企業(yè),主要研究算法、應用等)
B:做程序開(kāi)發(fā)設計(在企業(yè)做數據挖掘及其相關(guān)程序算法的實(shí)現等)
C:數據分析師(在存在海量數據的企事業(yè)單位做咨詢(xún)、分析等)
2.數據挖掘從業(yè)人員切入點(diǎn):
根據上面的從業(yè)方向倒序并延伸來(lái)說(shuō)說(shuō)需要掌握的技能。
C,數據分析師:需要有深厚的數理統計基礎,可以不知道人工智能和計算機編程等相關(guān)技術(shù),但是需要熟練使用主流的數據挖掘(或統計分析)工具。從這個(gè)方面切入數據挖掘領(lǐng)域的話(huà)你需要學(xué)習《數理統計》、《概率論》、《統計學(xué)習基礎:數據挖掘、推理與預測》、《金融數據挖掘》,《業(yè)務(wù)建模與數據挖掘》、《數據挖掘實(shí)踐》等,當然也少不了你使用的工具的對應說(shuō)明書(shū)了,如SPSS、SAS等廠(chǎng)商的《SAS數據挖掘與分析》、《數據挖掘Clementine應用實(shí)務(wù)》、《EXCEL 2007數據挖掘完全手冊》等,如果多看一些如《中文版 數據挖掘原理》 等書(shū)籍那就更好了。
B,程序設計開(kāi)發(fā):主要是實(shí)現數據挖掘現有的算法和研發(fā)新的算法以及根據實(shí)際需要結合核心算法做一些程序開(kāi)發(fā)實(shí)現工作。要想扮演好這個(gè)角色,你不但需要熟悉至少一門(mén)編程語(yǔ)言如(C,C++,Java,Delphi等)和數據庫原理和操作,對數據挖掘基礎課程有所了解,讀過(guò)《數據挖掘概念與技術(shù)》(韓家煒著(zhù))、《人工智能及其應用》。有一點(diǎn)了解以后,如果對程序比較熟悉的話(huà)并且時(shí)間允許,可以尋找一些開(kāi)源的數據挖掘軟件研究分析,也可以參考如《數據挖掘:實(shí)用機器學(xué)習技術(shù)及 Java實(shí)現》等一些教程。
A.做科研:這里的科研相對來(lái)說(shuō)比較概括,屬于技術(shù)型的相對高級級別,也是B,C的歸宿,那么相應的也就需要對B、C的必備基礎知識了。
可能之后不會(huì )續寫(xiě)一篇《數據挖掘進(jìn)階》了,這邊大概說(shuō)一下B和C的進(jìn)一步要求:
B當前主要包括如下方向:企業(yè)數據挖掘、Web數據挖掘、空間數據挖掘、多媒體數據挖掘等等;
C當前主要應用于:電信CRM、金融、咨詢(xún)業(yè)等等;
最后說(shuō)一下大家有必要熟悉數據挖掘工具:Google ,或許你也可以搜索到這篇文章,當然也可以搜索到人才招聘的相關(guān)職位需求以及其他資料,一如你當初搜索到 DMResearch 一樣。
聯(lián)系客服