欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
2006數據挖掘技術(shù)與應用熱點(diǎn)掃描
2006數據挖掘技術(shù)與應用熱點(diǎn)掃描
By  master 發(fā)表于 2006-9-7 14:25:00 [出自: 張承東

【摘要】 熱點(diǎn)篇:文本挖掘與網(wǎng)絡(luò )挖掘         算法和建模作為數據挖掘工具的核心技術(shù),從它誕生之日起就在得到不斷完善,而在最近兩年,也有一些新的技術(shù)和應用熱點(diǎn)開(kāi)始引起人們的關(guān)注,比如文本挖掘、網(wǎng)絡(luò )挖掘和可視化挖掘就是其中比較重要的三種?! ?#8220;文本挖掘是個(gè)太恐怖的事情。”中國傳媒大學(xué)調查統計研究所副所長(cháng)、數據挖掘研究室主任沈浩如此形容文本挖掘的威力。          文本挖掘(Text mining),顧名思義,就是從非結構化的文本中發(fā)現潛在的概念以及概念間的相互關(guān)系。在這項技術(shù)中,最關(guān)鍵的是分詞技術(shù),建立詞典。……
碧森尤信網(wǎng) 

熱點(diǎn)篇:文本挖掘與網(wǎng)絡(luò )挖掘

         算法和建模作為數據挖掘工具的核心技術(shù),從它誕生之日起就在得到不斷完善,而在最近兩年,也有一些新的技術(shù)和應用熱點(diǎn)開(kāi)始引起人們的關(guān)注,比如文本挖掘、網(wǎng)絡(luò )挖掘和可視化挖掘就是其中比較重要的三種。
  “文本挖掘是個(gè)太恐怖的事情。”中國傳媒大學(xué)調查統計研究所副所長(cháng)、數據挖掘研究室主任沈浩如此形容文本挖掘的威力。


         文本挖掘(Text mining),顧名思義,就是從非結構化的文本中發(fā)現潛在的概念以及概念間的相互關(guān)系。在這項技術(shù)中,最關(guān)鍵的是分詞技術(shù),建立詞典。只有讓計算機依據詞典完成正確斷詞之后,才可以實(shí)現將非結構化信息轉化為結構化信息,然后就可以進(jìn)一步研究文本之間的關(guān)系。比如本文開(kāi)頭提到的通過(guò)分析Blog網(wǎng)頁(yè)來(lái)建立禽流感預警機制的例子,其實(shí)既利用了文本挖掘技術(shù),也是一個(gè)網(wǎng)絡(luò )挖掘案例。

         到目前為止,像IBM、微軟等主流挖掘工具以及google和SNS網(wǎng)站都已經(jīng)在使用文本挖掘技術(shù)。但遺憾的是,目前這些工具大多只支持英文,還不支持中文挖掘。

         如果說(shuō)文本挖掘是一項技術(shù)熱點(diǎn)的話(huà),那么網(wǎng)絡(luò )挖掘可以稱(chēng)得上是數據挖掘領(lǐng)域中的一大應用熱點(diǎn)了。

         具體來(lái)講,網(wǎng)絡(luò )挖掘還可以細分為三種挖掘,一是前文提到的文本挖掘,二是結構挖掘(Structure mining),主要解決網(wǎng)頁(yè)與網(wǎng)頁(yè)之間的鏈接關(guān)系,三是點(diǎn)擊挖掘(Hit mining),是針對點(diǎn)擊率的挖掘分析??傮w而言,要實(shí)現網(wǎng)絡(luò )挖掘,從技術(shù)上講并沒(méi)有難度,大部分的問(wèn)題都可以用成熟方法來(lái)解決。

         在采訪(fǎng)中,無(wú)論廠(chǎng)商、集成商還是學(xué)界都肯定了網(wǎng)絡(luò )挖掘的美好發(fā)展前景。“我個(gè)人比較看好網(wǎng)絡(luò )挖掘。”盛秋戩博士這樣說(shuō)。他認為,網(wǎng)絡(luò )挖掘是施展數據挖掘技術(shù)很好的舞臺,同時(shí)也會(huì )給挖掘工具廠(chǎng)商帶來(lái)不少商機。沈浩同樣也認為,當電子商務(wù)發(fā)展起來(lái)之后,網(wǎng)絡(luò )挖掘肯定大有可為。

         但是業(yè)內人士也指出,網(wǎng)絡(luò )挖掘目前尚存在一些瓶頸。

         首先,一個(gè)關(guān)鍵問(wèn)題是電子商務(wù)的評估指標(e-Metrics)還沒(méi)有形成一個(gè)完整的體系。所謂指標體系就要設定幾個(gè)維度來(lái)衡量電子商務(wù)網(wǎng)站生意的好壞。目前,有些電子商務(wù)網(wǎng)站已經(jīng)開(kāi)始定義像潛在顧客率(reach)、招攬時(shí)間(Acquisition)、潛在顧客轉化率(Conversion)等一些評估指標,美國的一些技術(shù)會(huì )議也已經(jīng)開(kāi)始做一些整合工作,但是要形成體系還需要一段時(shí)間。

         其次,缺錢(qián)。在采訪(fǎng)中,商智通公司咨詢(xún)總監匡宏波表示,曾經(jīng)有一家醫藥類(lèi)電子商務(wù)網(wǎng)站主動(dòng)找上門(mén),提出要求想知道平臺的某類(lèi)藥品(比如盤(pán)尼西林)主要銷(xiāo)往哪里。但盛秋戩博士也指出,就電子商務(wù)領(lǐng)域的總體而言,除了像亞馬遜、eBay等一些國外大型電子商務(wù)網(wǎng)站開(kāi)始自己買(mǎi)工具進(jìn)行挖掘之外,國內少數注意到數據挖掘技術(shù)的網(wǎng)站大多是自己開(kāi)發(fā)做此類(lèi)工作,舍得掏錢(qián)的人還不多。

         在文本挖掘和網(wǎng)絡(luò )挖掘之外,可視化挖掘(Visual Data Mining)因為和工具的易用性聯(lián)系在一起,因而也頗為重要。

         簡(jiǎn)單來(lái)講,可視化包括了數據預處理和結果呈現兩個(gè)方面。比如StatSoft一直強調的完整的圖表工具庫以及高質(zhì)量的圖表呈現效果就是其優(yōu)勢所在。但是總體情況來(lái)看,可視化的內含和標準近幾年一直沒(méi)有更新的內容,而且,即便工具廠(chǎng)商自認為做得再“可視化”,對于用戶(hù)來(lái)說(shuō),仍有難以理解和掌握的地方。

         蘇立民介紹說(shuō),雖然現在挖掘結果的呈現已經(jīng)相當易用,但是他接觸到的一些用戶(hù)依然會(huì )抱怨說(shuō),每回總是打印出那么多表格到底有什么用?其中的問(wèn)題就在于:工具的易用性是一回事,有沒(méi)有既懂業(yè)務(wù)又懂技術(shù)的人來(lái)用卻是另一回事。



應用篇:瓜熟蒂不落?

         在采訪(fǎng)中,筆者發(fā)現,無(wú)論廠(chǎng)商、集成商還是學(xué)術(shù)界,基本上都認同一個(gè)觀(guān)點(diǎn),即:數據挖掘在技術(shù)上已經(jīng)趨于成熟,現在更重要的就是如何拓展行業(yè)應用。 IBM軟件部中國區DB2信息管理技術(shù)經(jīng)理劉晶煒表示說(shuō),數據挖掘技術(shù)已經(jīng)到了一個(gè)普及化的階段,現在關(guān)鍵是要讓數據挖掘從神壇上走下來(lái)。商智通公司咨詢(xún)總監匡宏波也表示,現在數據挖掘領(lǐng)域的問(wèn)題都不是技術(shù)問(wèn)題,也不是工具問(wèn)題,而是應用問(wèn)題。那么,現在,數據挖掘工具在國內的實(shí)際應用處于什么階段呢? 

         從行業(yè)應用來(lái)看,目前大多數的用戶(hù)都來(lái)自電信、銀行、保險、稅務(wù)等領(lǐng)域,比如南京地稅、四川移動(dòng)兩個(gè)案例就做得相當成功,應用主題則主要包含:消費者行為分析、信用評分與風(fēng)險管理、欺詐行為偵測、購物籃分析等方面。綜合國內外的發(fā)展趨勢,可以看到的是,大型連鎖商店和高科技制造產(chǎn)業(yè)也將成為應用數據挖掘技術(shù)的重要領(lǐng)域。前者的記賬質(zhì)量之好為業(yè)內公認,一旦開(kāi)始數據挖掘方面的應用則前景不可限量;而在后一個(gè)領(lǐng)域,國外已經(jīng)開(kāi)始陸續導入數據挖掘技術(shù),類(lèi)似做法相信會(huì )很快為國內制造業(yè)大廠(chǎng)所借鑒。

         從應用層次上看,大體可以分為三個(gè)層次,第一層次是把挖掘工具當作單獨的工具來(lái)用,偶爾用一下出具一個(gè)報告,不用專(zhuān)門(mén)建設系統;第二層次則是把數據挖掘模塊嵌入到系統中,稱(chēng)為部門(mén)級應用;第三層次是企業(yè)級應用,相當于把挖掘系統作為整個(gè)企業(yè)運營(yíng)的CPU。目前,國內的數據挖掘應用是本來(lái)數量就比較少,即便是做了的,也有很多只是處于第一層次,偶爾某些用戶(hù)能夠做到第二層次。

         如此一來(lái),問(wèn)題出現了:既然數據挖掘技術(shù)已經(jīng)趨于成熟,為什么在應用上卻遲遲跟不上呢?筆者在采訪(fǎng)了幾家主流廠(chǎng)商和集成商以及業(yè)內專(zhuān)家后發(fā)現,問(wèn)題主要集中在以下幾個(gè)方面。

         其一,工具易用性強,那么是否用戶(hù)就會(huì )運用呢?答案是否定的。

         現在很多廠(chǎng)家都在強調工具的易用性,但是卻忽視了一個(gè)問(wèn)題,即工具易用性強和用戶(hù)會(huì )運用完全是兩碼事。Sybase商務(wù)智能總監廖鋼城表示,這兩者的關(guān)系,就像用Word寫(xiě)文章一樣,即便輸入法、界面等再友好,但是和使用者能否寫(xiě)出流暢的文章并無(wú)關(guān)系。

         “用戶(hù)總是想像使用傻瓜相機一樣使用挖掘工具,事實(shí)上這是不可能的。”盛秋戩博士表示說(shuō)。據他介紹,目前很多號稱(chēng)已經(jīng)做完的項目,其實(shí)大部分工作仍然還都是由廠(chǎng)商代替客戶(hù)操作使用。

         其二,復合型人才一將難求。

         要成功完成一次數據挖掘過(guò)程,用戶(hù)首先要熟悉業(yè)務(wù),其次還要對算法和模型熟悉。兩者不可偏廢,才能知道拿來(lái)的數據代表什么,算出來(lái)的結果又代表了什么。然而,從目前電信、金融行業(yè)的人才結構來(lái)看,如今主導建設數據挖掘系統的大都是工科出身,不但業(yè)務(wù)不熟悉,即便是對于數學(xué)領(lǐng)域中的統計學(xué)也都過(guò)于生疏??陀^(guān)地講,這種復合型人才的缺乏也在很大程度上造成了目前數據挖掘市場(chǎng)還不夠成熟。

         那么,如何解決這個(gè)問(wèn)題?答案似乎很簡(jiǎn)單,沒(méi)有,那就只有培養了。比如現在一些電信用戶(hù)就在日常培訓之外,還高薪聘請一些乙方(數據倉庫解決方案供應商)的咨詢(xún)師和顧問(wèn),專(zhuān)職負責自己的數據倉庫和挖掘項目,試圖由此培養一批既懂業(yè)務(wù)又懂技術(shù)的專(zhuān)業(yè)人才。當然,一開(kāi)始說(shuō)的是培養,最后實(shí)在忙不過(guò)來(lái),用戶(hù)挖廠(chǎng)商墻角的事也不是沒(méi)有。

         問(wèn)題是,同樣是培養人才,那到底是讓業(yè)務(wù)人員學(xué)技術(shù)好呢,還是讓技術(shù)人員學(xué)業(yè)務(wù)好呢?蘇立民和廖鋼城都表示,更贊成是業(yè)務(wù)人員去學(xué)習技術(shù)。因為業(yè)務(wù)人員是為了應用而學(xué)習,可以實(shí)現很好的結合。目前,像中國人民大學(xué)已經(jīng)開(kāi)始招收有計算機專(zhuān)業(yè)背景的統計博士,而中國傳媒大學(xué)的數據研發(fā)中心也是文理兼收,可以想見(jiàn),未來(lái)三四年內,人才缺乏的問(wèn)題將逐步得到緩解。

         其三,轉變意識。與國外長(cháng)期的精細化管理相比,國內用戶(hù)有些時(shí)候還不太習慣迅速走向精細化。沈浩就表示,國內零售企業(yè)的記賬是最好的,也是被認為最值得做數據挖掘的行業(yè),但迄今為止還沒(méi)有哪家開(kāi)始做,原因就在于沒(méi)有這方面的意識。

編看編想:從一錘子買(mǎi)賣(mài)到沿途下蛋

         生意人都知道,一錘子的買(mǎi)賣(mài)做不得。但筆者卻發(fā)現,在數據挖掘領(lǐng)域里,敲一錘子換個(gè)地方的現象卻似乎并不鮮見(jiàn)。為什么非要這樣做呢?原因是心里太著(zhù)急。很多廠(chǎng)商總認為,自己懷里揣著(zhù)的是好產(chǎn)品,面前的中國又是一個(gè)大市場(chǎng)。如此一想,就感覺(jué)不趕快搶下幾個(gè)大單簡(jiǎn)直就沒(méi)天理了。

         于是,搞售前的著(zhù)急讓用戶(hù)簽單,拿到錢(qián)后又著(zhù)急從用戶(hù)那里撤退。結果如何呢?還真像那句俏皮話(huà)說(shuō)的:有困難要上,沒(méi)有困難創(chuàng )造困難也要上?;罨畎岩恍┖?jiǎn)單問(wèn)題復雜化。有些買(mǎi)完工具的用戶(hù)其實(shí)需求都沒(méi)想明白,何談成功運用;而那些能在忽悠中挺過(guò)來(lái)的用戶(hù)索性就不再理這個(gè)茬。

         廠(chǎng)商著(zhù)急,其實(shí)有些用戶(hù)也著(zhù)急。廠(chǎng)商著(zhù)急賣(mài)產(chǎn)品,而用戶(hù)卻在著(zhù)急讓花大價(jià)錢(qián)買(mǎi)來(lái)的產(chǎn)品早日上線(xiàn)出效益。這種想法雖然也有問(wèn)題,但是可以理解。你想,誰(shuí)不擔心幾十萬(wàn)的資金打了水漂兒,誰(shuí)又不想讓領(lǐng)導說(shuō)這幾十萬(wàn)花得值、花得好呢?

         那么,如何才能做到既能保證項目按周期實(shí)施、又不讓用戶(hù)心急火燎地難受呢?上海證券交易所信息網(wǎng)絡(luò )有限公司董事長(cháng)趙小平提出了一個(gè)“沿途下蛋”的理論。簡(jiǎn)單講,就是不要到最后才給用戶(hù)下一個(gè)大金蛋,很可能這個(gè)大金蛋還沒(méi)下來(lái),用戶(hù)就已經(jīng)下了逐客令。正確的辦法就是不斷出成果,這樣用戶(hù)才會(huì )安心等待并且積極配合。無(wú)疑,從“一錘子的買(mǎi)賣(mài)”到“沿途下蛋”這條路上還需要廠(chǎng)商和用戶(hù)慢慢琢磨。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
挖潛無(wú)極限—數據挖掘技術(shù)與應用熱點(diǎn)掃描
數據挖掘面臨的科學(xué)和工程的新問(wèn)題
關(guān)于Hadoop結合RDBMS應用的一些思考
計世獨家:2008最值得關(guān)注的三大技術(shù)
榮耀V30下月發(fā)布,將5G體驗從“快”升級到“場(chǎng)景化”
人工智能淪為家電企業(yè)炒作工具
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久