欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
基于Hadoop平臺的并行數據挖掘算法工具-Dodo(轉)

基于Hadoop平臺的并行數據挖掘算法工具-Dodo(轉)  

2011-09-16 10:16:25|  分類(lèi): hadoop|字號 訂閱

一 基于云計算的海量數據挖掘 

2008年7 月,《Communications of the ACM》雜志發(fā)表了關(guān)于云計算的專(zhuān)輯,云計算因其清晰的商業(yè)模式而受到廣泛關(guān)注,并得到工業(yè)和學(xué)術(shù)界的普遍認可。目前工業(yè)界推出的云計算平臺有Amazon公司的EC2和S3,Google公司的Google Apps Engine, IBM公司的Blue Cloud,Microsoft公司的Windows Azure, Salesforce公司的Sales Force, VMware公司的vCloud,Apache軟件開(kāi)源組織的Hadoop等。在國內,IBM與無(wú)錫市共建了云計算中心,中石化集團成功應用IBM的云計算方案建立起一個(gè)企業(yè)云計算平臺。阿里巴巴集團于2009年初在南京建立電子商務(wù)云計算中心。 

嚴格的講,云計算是一種新穎的商業(yè)計算模型,它可以將計算任務(wù)分布在大量互連的計算機上,使各種應用系統能夠根據需要獲取計算資源、存儲資源和其他服務(wù)資源。Google公司的云平臺是最具代表性的云計算技術(shù)之一,包括四個(gè)方面的主要技術(shù):Google文件系統GFS、并行計算模型MapReduce、結構化數據表BigTable和分布式的鎖管理Chubby?;谝陨霞夹g(shù),云計算可以為海量數據處理和分析提供一種高效的計算平臺。簡(jiǎn)單來(lái)說(shuō),將海量數據分解為相同大小、分布存儲,然后采用MapReduce模型進(jìn)行并行化編程,這種技術(shù)使Google公司在搜索引擎應用中得到了極大的成功。 

然而MapReduce計算模型適合結構一致的海量數據,且要求計算簡(jiǎn)單。對于大量的數據密集型應用(如數據挖掘任務(wù)),往往涉及到數據降維、程序迭代、近似求解等等復雜的算法,計算非常困難。因此,基于云計算的海量數據挖掘技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點(diǎn)技術(shù)之一。 

分布式計算是解決海量數據挖掘任務(wù),提高海量數據挖掘效率的方法之一。目前,分布式數據挖掘技術(shù)主要有基于主體(agent)的分布式數據挖掘、基于網(wǎng)格的分布式數據挖掘、基于云的分布式數據挖掘等。海量數據挖掘另一個(gè)核心問(wèn)題是數據挖掘算法的并行化。圖1給出基于云計算的海量數據挖掘服務(wù)的層次結構圖。

 


圖1  基于云計算的海量數據挖掘服務(wù)的層次結構圖

中國移動(dòng)研究院從2007年3月份啟動(dòng)“大云”的研發(fā)工作。2008年,中國移動(dòng)研究院已建設有256個(gè)節點(diǎn)、1024個(gè)CPU、256TB存儲的云平臺。中國移動(dòng)“大云”平臺主要為數據挖掘、系統評估、搜索等應用提供計算服務(wù)。在開(kāi)源 Hadoop云平臺上,中科院計算所研制了并行數據挖掘工具平臺PDMiner。針對海量數據,云計算分別從數據挖掘模式和方法等方面進(jìn)行相關(guān)的研究。與此同時(shí),中科院深圳先進(jìn)研究院還研制了一個(gè)分布式數據挖掘系統AlphaMiner。

    本文首先討論了海量數據挖掘的研究熱點(diǎn);其次基于開(kāi)放的Hadoop平臺,討論并行數據挖掘算法工具箱和數據挖掘云的設計。

二 技術(shù)熱點(diǎn)

    云 計算是一種資源利用模式,它能以簡(jiǎn)便的途徑和以按需的方式通過(guò)網(wǎng)絡(luò )訪(fǎng)問(wèn)可配置的計算資源,快速部署資源。在這種模式中,應用、數據和資源以服務(wù)的方式通過(guò) 網(wǎng)絡(luò )提供給用戶(hù)使用。大量的計算資源組成資源池,用于動(dòng)態(tài)創(chuàng )建高度虛擬化的資源以供用戶(hù)使用。但對于海量數據分析任務(wù),云平臺缺乏針對海量數據挖掘和分析 算法的并行化實(shí)現。因此面向海量數據挖掘的新型云計算模式,主要包括海量數據預處理、適合于云計算的海量數據挖掘并行算法、新型海量數據挖掘方法和云計算 數據挖掘工具箱等技術(shù)。

    (1)海量數據預處理。為了適合并行處理,云平臺應可以提供海量數據的概念分層組織以及海量數據的并行加載;并實(shí)現高維度約減和數據稀疏化技術(shù),提高數據管理和挖掘的效率。

    (2)適合于云計算的海量數據挖掘并行算法。海量數據挖掘的關(guān)鍵問(wèn)題是數據挖掘算法的并行化。而云計算采用MapReduce 等 新型計算模型,這意味著(zhù)現有的數據挖掘算法和并行化策略不能直接應用于云計算平臺下進(jìn)行海量數據挖掘,需要進(jìn)行一定的改造。因此需要深入研究數據挖掘算法 的并行化策略,繼而實(shí)現高效的云計算并行海量數據挖掘算法。并行海量數據挖掘算法包括并行關(guān)聯(lián)規則算法、并行分類(lèi)算法和并行聚類(lèi)算法,用于分類(lèi)或預測模 型、數據總結、數據聚類(lèi)、關(guān)聯(lián)規則、序列模式、依賴(lài)關(guān)系或依賴(lài)模型、異常和趨勢發(fā)現等。在此基礎上,針對海量數據挖掘算法的特點(diǎn)對已有的云計算模型進(jìn)行優(yōu) 化和擴充,使其更適用于海量數據挖掘。

    (3)新型海量數據挖掘方法。新 型海量數據挖掘方法包含面向同構數據、異構數據和跨域數據的不同的數據挖掘新方法。在同構海量數據挖掘系統中,各個(gè)節點(diǎn)存儲的數據都具有相同的屬性空間。 云平臺采用集成學(xué)習的方式來(lái)生成最終的全局預測模型。并在同構節點(diǎn)的元學(xué)習基礎上,實(shí)現數據挖掘增量學(xué)習方法,已滿(mǎn)足實(shí)時(shí)要求;在異構海量數據挖掘系統 中,云平臺根據數據模態(tài),將數據節點(diǎn)分類(lèi),并提供異構數據相關(guān)性度量和集成機制。除此之外,由于數據挖掘應用的特殊性,云平臺能提供對海量數據遷移挖掘方 法的支撐,以便擴充云計算環(huán)境下數據挖掘應用的適用范圍,更好地滿(mǎn)足數據挖掘終端用戶(hù)的需求。

    (4)并行數據挖掘工具箱。海量數據挖掘應用系統開(kāi)發(fā)前,都會(huì )對采用的算法進(jìn)行性能的評估。目前已有的Weka工具箱采用的是單機算法,不能應用在基于云計算的海量數據挖掘應用中。Apache組織近年來(lái)組織了Mahout開(kāi)源項目,設計用于云平臺的數據挖掘算法。但Mahout項目目前還缺少數據準備、數據展示和用戶(hù)交互,還不完全適合海量數據挖掘并行算法的性能評估。因此,云平臺應可以提供一個(gè)基于MapReduce計算模型的并行數據挖掘工具箱,用于海量數據挖掘并行算法的性能評估。

    在網(wǎng)格計算研究中,國際研究者研發(fā)了多個(gè)基于網(wǎng)格的復雜數據分析任務(wù)的服務(wù)系統,如Data Mining Grid、Grid Miner等 等。在這些系統中,實(shí)現了復雜數據分析任務(wù)的工作流定義、資源調度和管理的透明化、具體算法的注冊和服務(wù)化等。以上部分技術(shù)可以直接遷移到云計算平臺上, 但由于云計算模式和數據挖掘服務(wù)的特殊性,仍需在按需服務(wù)、多任務(wù)調度和分配等技術(shù)上進(jìn)行進(jìn)一步的突破。具體技術(shù)內容包括:

    (1)按需服務(wù)的自治計算模式。 將海量數據挖掘任務(wù)的服務(wù)化,設計并實(shí)現并行數據挖掘軟件自配置、自?xún)?yōu)化、自修復和自保護的方法,以及自適應用戶(hù)需求的數據挖掘服務(wù)的自動(dòng)發(fā)現和組合算法。

    (2)多任務(wù)的動(dòng)態(tài)分配機制。海量數據挖掘應用往往是數據密集,且具有突發(fā)性的特點(diǎn);除此之外,不同的數據挖掘應用對算法精度、性能要求也不一致。因此,基于云計算的海量數據挖掘必須優(yōu)化負載調節的策略與任務(wù)遷移策略等。

    (3)數據挖掘服務(wù)的動(dòng)態(tài)按需遷移。云 平臺提供支持海量數據挖掘任務(wù)的服務(wù)重定位方法,即當一個(gè)服務(wù)器上運行中的服務(wù)按需遷移到另一個(gè)服務(wù)器上去時(shí),能同時(shí)有效地為后繼工作流任務(wù)提供可用的資 源空間,并滿(mǎn)足整合服務(wù)器資源的需要。在資源管理和配置中,針對海量數據的大規模和異構等特點(diǎn),運用虛擬化技術(shù)進(jìn)行存儲管理,并設計一種新型的動(dòng)態(tài)遷移架 構。

    (4)復雜數據挖掘任務(wù)服務(wù)平臺。 在Hadoop等云平臺上,設計支持復雜數據挖掘任務(wù)服務(wù)化的中間件系統。支持復雜數據分析任務(wù)的流定義、復雜數據分析任務(wù)的動(dòng)態(tài)配置、并行算法的注冊、云平臺資源的調度和管理的透明化,最終實(shí)現復雜數據分析任務(wù)的按需服務(wù)。

三 基于Hadoop的并行數據挖掘算法工具箱——Dodo

Weka是由新西蘭Waikato大學(xué)研發(fā)的數據處理和知識發(fā)現軟件包。其可以實(shí)現數據預處理、聚類(lèi)、分類(lèi)、回歸、特征選擇、可視化等各種數據挖掘的任務(wù)。Weka被廣泛用于各種數據挖掘任務(wù)中算法的評估。但其中數據挖掘算法的實(shí)現是基于單機實(shí)現的。與Weka不同的是,Apache組織基于Hadoop平臺的,采用MapReduce計算模型,實(shí)現大量機器學(xué)習算法的并行化,并將其封裝在Mahout項目。但由于Mahout并不提供一種圖形界面交互,用戶(hù)需要大量手工配置數據和參數,同時(shí)目前實(shí)現的并行數據挖掘算法也不完全。因此有必須借鑒Weka和Mahout的優(yōu)點(diǎn),研發(fā)一個(gè)基于Hadoop的并行數據挖掘算法工具箱——Dodo。表1給出三個(gè)工具箱目前的主要異同點(diǎn)。

表1  Weka, Mahout和Dodo主要異同

 

數據源

數據格式

數據存儲

算法

用戶(hù)界面

Weka

支持文本文件:包括本地的數據文件以及網(wǎng)絡(luò )數據文件;

支持數據庫文件:通過(guò)JDBC連接。

標準格式是Arff,行表示實(shí)例,列表示各個(gè)屬性。另外還支持CSV,C45以及BSI。

數據文件加載存儲于內存之中

在單機上實(shí)現分類(lèi)、聚類(lèi)、關(guān)聯(lián)規則等數據挖掘算法

包括發(fā)現模式的表示,數據挖掘原語(yǔ)的操作,界面功能主要包括4個(gè)部分:Simple CLI、Explorer、Experimenter Knowledge Flow

Mahout

僅支持文本文件

每個(gè)算法自己根據算法的情況自己設定的文件格式

存儲于Hdfs上

基于MapReduce計算模型,實(shí)現….

命令行交互

Dodo

支持文本文件、網(wǎng)絡(luò )文件和數據庫文件

支持Arff等通用標準格式,也支持順序文件,文本文件等格式,并提供預處理

存儲于Hdfs上

迭代和非迭代類(lèi)數據挖掘算法的MapReduce化

數據管理:上傳、刪除、修改。

Hadoop平臺管理:?jiǎn)?dòng)、關(guān)閉。

算法管理:選擇算法、修改算法參數。

任務(wù)提交。

任務(wù)進(jìn)度顯示。


圖2  Dodo工具箱運行流程 

    在圖2中,如果用戶(hù)是首次啟動(dòng)工具箱,需要選擇連接的Hadoop環(huán)境并對環(huán)境進(jìn)行配置;當用戶(hù)需要上傳數據,工具箱以樹(shù)形圖的形式,將用戶(hù)的數據上傳到指定的Hadoop路徑上;如果不是順序數據,工具箱則將其順序化然后存儲;在算法選擇階段,用戶(hù)可以選擇工具箱自帶的并行化數據挖掘算法,也可以選擇用戶(hù)指定的、本地的jar文件;通過(guò)工具箱,用戶(hù)能對選擇的算法進(jìn)行設置,其中包括輸入輸出路徑,算法特定的參數等等;最后在Hadoop環(huán)境上對指定輸入路徑上的數據運行指定的算法,輸出結果以可視化的方式展示給用戶(hù)。

 


圖3  Dodo工具箱模塊結構圖

    圖3中,將Dodo工具箱分為用戶(hù)交互層、內部實(shí)現層以及Hadoop交互層等三個(gè)層次。用戶(hù)交互層主要負責結果展示、算法選擇等需要和用戶(hù)進(jìn)行交互的操作;內部實(shí)現層是Dodo的核心部分,負責與上層和下層進(jìn)行交互,將一些操作進(jìn)行抽象供兩層進(jìn)行調用;而Hadoop交互層主要是負責和Hadoop平臺進(jìn)行相應的操作,進(jìn)行相關(guān)的平臺配置或者數據上傳或讀寫(xiě)。

四 數據挖掘云

不同于其他的企業(yè)應用,將數據挖掘應用服務(wù)化,具備以下4個(gè)非常特殊的特點(diǎn):

(1)簡(jiǎn)單化的工作流。數據挖掘應用從工作流角度來(lái)看,相對非常簡(jiǎn)單。應用中沒(méi)有復雜的流程,也沒(méi)有很多不同的角色。但數據挖掘應用仍然是一個(gè)工作流。因此將其服務(wù)化時(shí),需要提供一個(gè)可視化的工作流編輯、管理界面,云平臺也要提供對工作流引擎的監控。

(2)豐富的算法選擇。不同于企業(yè)應用,在數據挖掘應用實(shí)現一個(gè)具體的挖掘任務(wù)有很多種算法。在很多情況下,每種算法的性能和效率都有可能不一樣。

(3)結果的不確定性。數據挖掘任務(wù)中,選擇不同的數據和算法,將有可能導致不同的計算結果。

(4)應用的突發(fā)性。很多的數據挖掘應用的請求會(huì )隨著(zhù)時(shí)間、空間呈現出突發(fā)性,這對資源提出了很高的“伸縮性”需求。

從以上特點(diǎn)可以看出,數據挖掘服務(wù)是一種真正的按需服務(wù)。用戶(hù)可以根據自己的需求以及付費能力選擇適合自己的服務(wù)模式。因此,所謂數據挖掘云是指在hadoop平臺上提供支持復雜數據挖掘任務(wù)的服務(wù)系統,此系統能夠提供復雜數據挖掘任務(wù)的工作流定義、資源調度、算法和工具以web service的方式向外提供服務(wù)。

數據挖掘云的結構如圖4所示:

 


圖4 數據挖掘云

數據挖掘云的最底層是擴展云計算平臺Hadoop的功能,實(shí)現HDFS數據管理、算法管理和資源監控,其中算法管理模塊集成了各種基于MapReduce的 工具箱,以向上提供算法服務(wù)。數據挖掘云的底層組件中,需要根據云服務(wù)的自適應需求,實(shí)現優(yōu)化的資源分配和任務(wù)調度。數據挖掘云的中間層是數據挖掘云高層 服務(wù),包括目錄服務(wù)、效用服務(wù)、數據服務(wù)和算法服務(wù)等核心組件。而最上層是客戶(hù)端組件,主要用于與用戶(hù)的直接交互。用戶(hù)通過(guò)友好的可視化界面管理和監視任 務(wù)的執行,并且很方便地查看任務(wù)執行結果。

在數據挖掘云的設計中,核心的組件有以下6個(gè):

(1)目錄服務(wù):各種資源都能以目錄的方式展示給用戶(hù),用戶(hù)可以方便地展開(kāi)目錄查看所有可用的資源。

(2)資源分配和任務(wù)調度服務(wù):把上層生成的執行計劃映射到具體的計算資源和節點(diǎn)上,然后進(jìn)行任務(wù)的調度和執行。

(3)數據訪(fǎng)問(wèn)服務(wù):用戶(hù)根據自己的任務(wù),需要查找、上傳或下載所需要的數據,數據訪(fǎng)問(wèn)服務(wù)為用戶(hù)提供了良好的接口讓用戶(hù)方便進(jìn)行這些操作。

(4)算法和應用訪(fǎng)問(wèn)服務(wù):用戶(hù)在編輯工作流的時(shí)候,需要查找滿(mǎn)足需求的算法和應用,算法和應用服務(wù)提供了良好的接口讓用戶(hù)方便數據和應用的訪(fǎng)問(wèn)。

(5)流管理服務(wù):流管理服務(wù)包括工作流的編輯和執行,以及用戶(hù)對流的執行過(guò)程的監控和控制,并且在執行過(guò)程中會(huì )生成相應的日志。

(6)結果展示服務(wù):任務(wù)執行完畢以后,用戶(hù)需要查看任務(wù)的執行結果,結果展示可能包含多種方式,圖狀的、表格式的、文本式的等方式。

五 總結

綜上所述,本文討論了基于云計算的海量數據挖掘的進(jìn)展和主要技術(shù)熱點(diǎn),并分析了基于Hadoop平臺的數據挖掘算法工具箱和數據挖掘云的結構。Dodo工具箱主要實(shí)現海量數據挖掘算法MapReduce化,以提高對海量數據的處理能力。在工具箱實(shí)現中,強調與Hadoop平臺的交互式配置,迭代/非迭代類(lèi)數據挖掘算法的并行化實(shí)現。在數據挖掘云服務(wù)中,為使海量數據挖掘應用服務(wù)化,提供從Hadoop資源分配到目錄服務(wù),再到流管理等一系列的組件服務(wù),繼而提高海量數據挖掘軟件的服務(wù)能力。作為能為企業(yè)效益增值的數據挖掘應用,本質(zhì)上具備了請求突發(fā)、需求多變,結果依賴(lài)于數據和算法的特點(diǎn),因此必須進(jìn)一步優(yōu)化云計算平臺,提高云平臺對按需服務(wù)的支撐能力。源自:http://wenku.baidu.com/view/8959ae6ba98271fe910ef952.html

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
【趨勢】智能電網(wǎng)大數據處理現狀與挑戰
大數據導論
基于云計算的海量數據挖掘
AI研習丨CAAI副秘書(shū)長(cháng)何清研究員:大數據挖掘與知識發(fā)現
網(wǎng)絡(luò )時(shí)代海量數據挖掘的關(guān)鍵技術(shù)及應用現狀
海量信息下的文本分類(lèi)研究與優(yōu)化
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久