
谷歌有一個(gè)名為"谷歌流感趨勢"的工具,它通過(guò)跟蹤搜索詞相關(guān)數據來(lái)判斷全美地區的流感情況(比如患者會(huì )搜索流感兩個(gè)字)。近日,這個(gè)工具發(fā)出警告,全美的流感已經(jīng)進(jìn)入"緊張"級別。它對于健康服務(wù)產(chǎn)業(yè)和流行病專(zhuān)家來(lái)說(shuō)是非常有用的,因為它的時(shí)效性極強,能夠很好地幫助到疾病暴發(fā)的跟蹤和處理。事實(shí)也證明,通過(guò)海量搜索詞的跟蹤獲得的趨勢報告是很有說(shuō)服力的,僅波士頓地區,就有700例流感得到確認,該地區目前已宣布進(jìn)入公共健康緊急狀態(tài)…點(diǎn)擊查看>>
大數據的爆炸式增長(cháng)在大容量、多樣性和高增速方面,全面考驗著(zhù)現代企業(yè)的數據處理和分析能力;同時(shí),也為企業(yè)帶來(lái)了獲取更豐富、更深入和更準確地洞察市場(chǎng)行為的大量機會(huì )。對企業(yè)而言,能夠從大數據中獲得全新價(jià)值的消息是令人振奮的。然而,如何從大數據中發(fā)掘出"真金白銀"則是一個(gè)現實(shí)的挑戰。這就要求采用一套全新的、對企業(yè)決策具有深遠影響的解決方案…點(diǎn)擊查看>>
"大數據"是一個(gè)體量特別大,數據類(lèi)別特別大的數據集,并且這樣的數據集無(wú)法用傳統數據庫工具對其內容進(jìn)行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實(shí)際應用中,很多企業(yè)用戶(hù)把多個(gè)數據集放在一起,已經(jīng)形成了PB級的數據量;其次是指數據類(lèi)別(variety)大,數據來(lái)自多種數據源,數據種類(lèi)和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著(zhù)是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數據真實(shí)性(Veracity)高,隨著(zhù)社交數據、企業(yè)內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
大數據(bigdata),或稱(chēng)巨量資料,指的是所涉及的資料量規模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數據的4V特點(diǎn):Volume、Velocity、Variety、Veracity。
"大數據"的概念遠不止大量的數據(TB)和處理大量數據的技術(shù),或者所謂的"4個(gè)V"之類(lèi)的簡(jiǎn)單概念,而是涵蓋了人們在大規模數據的基礎上可以做的事情,而這些事情在小規模數據的基礎上是無(wú)法實(shí)現的。換句話(huà)說(shuō),大數據讓我們以一種前所未有的方式,通過(guò)對海量數據進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn),最終形成變革之力
"大數據"是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長(cháng)率和多樣化的信息資產(chǎn)。從數據的類(lèi)別上看,"大數據"指的是無(wú)法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶(hù)采用非傳統處理方法的數據集。
亞馬遜網(wǎng)絡(luò )服務(wù)(AWS)、大數據科學(xué)家JohnRauser提到一個(gè)簡(jiǎn)單的定義:大數據就是任何超過(guò)了一臺計算機處理能力的龐大數據量。
研發(fā)小組對大數據的定義:"大數據是最大的宣傳技術(shù)、是最時(shí)髦的技術(shù),當這種現象出現時(shí),定義就變得很混亂。"
Kelly說(shuō):"大數據是可能不包含所有的信息,但我覺(jué)得大部分是正確的。對大數據的一部分認知在于,它是如此之大,分析它需要多個(gè)工作負載,這是AWS的定義。當你的技術(shù)達到極限時(shí),也就是數據的極限"。
大數據不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰在于哪些技術(shù)能更好的使用數據以及大數據的應用情況如何。這與傳統的數據庫相比,開(kāi)源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務(wù)的價(jià)值在哪里。

從所周知,大數據已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數據大的事實(shí)了,而最重要的現實(shí)是對大數據進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來(lái)越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長(cháng)的復雜性,所以大數據的分析方法在大數據領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素?;谌绱说恼J識,大數據分析普遍存在的方法理論有哪些呢?
大數據分析的使用者有大數據分析專(zhuān)家,同時(shí)還有普通用戶(hù),但是他們二者對于大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀(guān)的呈現大數據特點(diǎn),同時(shí)能夠非常容易被讀者所接受,就如同看圖說(shuō)話(huà)一樣簡(jiǎn)單明了。
大數據分析的理論核心就是數據挖掘算法,各種數據挖掘的算法基于不同的數據類(lèi)型和格式才能更加科學(xué)的呈現出數據本身具備的特點(diǎn),也正是因為這些被全世界統計學(xué)家所公認的各種統計方法(可以稱(chēng)之為真理)才能深入數據內部,挖掘出公認的價(jià)值。另外一個(gè)方面也是因為有這些數據挖掘的算法才能更快速的處理大數據,如果一個(gè)算法得花上好幾年才能得出結論,那大數據的價(jià)值也就無(wú)從說(shuō)起了。
大數據分析最終要的應用領(lǐng)域之一就是預測性分析,從大數據中挖掘出特點(diǎn),通過(guò)科學(xué)的建立模型,之后便可以通過(guò)模型帶入新的數據,從而預測未來(lái)的數據。
大數據分析廣泛應用于網(wǎng)絡(luò )數據挖掘,可從用戶(hù)的搜索關(guān)鍵詞、標簽關(guān)鍵詞、或其他輸入語(yǔ)義,分析,判斷用戶(hù)需求,從而實(shí)現更好的用戶(hù)體驗和廣告匹配。
大數據分析離不開(kāi)數據質(zhì)量和數據管理,高質(zhì)量的數據和有效的數據管理,無(wú)論是在學(xué)術(shù)研究還是在商業(yè)應用領(lǐng)域,都能夠保證分析結果的真實(shí)和有價(jià)值。
大數據分析的基礎就是以上五個(gè)方面,當然更加深入大數據分析的話(huà),還有很多很多更加有特點(diǎn)的、更加深入的、更加專(zhuān)業(yè)的大數據分析方法。
數據采集:ETL工具負責將分布的、異構數據源中的數據如關(guān)系數據、平面數據文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯(lián)機分析處理、數據挖掘的基礎。
數據存?。?/b>關(guān)系數據庫、NOSQL、SQL等。
基礎架構:云存儲、分布式文件存儲等。
數據處理:自然語(yǔ)言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計算機"理解"自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解(NLU,NaturalLanguage Understanding),也稱(chēng)為計算語(yǔ)言學(xué)(Computational Linguistics。一方面它是語(yǔ)言信息處理的一個(gè)分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著(zhù)性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線(xiàn)估計、因子分析、聚類(lèi)分析、主成分分析、因子分析、快速聚類(lèi)法與聚類(lèi)法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數據挖掘:分類(lèi) (Classification)、估計(Estimation)、預測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規則(Affinity grouping or association rules)、聚類(lèi)(Clustering)、描述和可視化、Description and Visualization)、復雜數據類(lèi)型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學(xué)習、建模仿真。
結果呈現:云計算、標簽云、關(guān)系圖等。
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過(guò)去的海量數據有所區別,其基本特征可以用4個(gè)V來(lái)總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。
第一,數據體量巨大。從TB級別,躍升到PB級別。
第二,數據類(lèi)型繁多,如前文提到的網(wǎng)絡(luò )日志、視頻、圖片、地理位置信息,等等。
第三,價(jià)值密度低。以視頻為例,連續不間斷監控過(guò)程中,可能有用的數據僅僅有一兩秒。
第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統的數據挖掘技術(shù)有著(zhù)本質(zhì)的不同。物聯(lián)網(wǎng)、云計算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數據來(lái)源或者承載的方式。
大數據技術(shù)是指從各種各樣類(lèi)型的巨量數據中,快速獲得有價(jià)值信息的技術(shù)。解決大數據問(wèn)題的核心是大數據技術(shù)。目前所說(shuō)的"大數據"不僅指數據本身的規模,也包括采集數據的工具、平臺和數據分析系統。大數據研發(fā)目的是發(fā)展大數據技術(shù)并將其應用到相關(guān)領(lǐng)域,通過(guò)解決巨量數據處理問(wèn)題促進(jìn)其突破性發(fā)展。因此,大數據時(shí)代帶來(lái)的挑戰不僅體現在如何處理巨量數據從中獲取有價(jià)值的信息,也體現在如何加強大數據技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。
一是建立一套運行機制。大數據建設是一項有序的、動(dòng)態(tài)的、可持續發(fā)展的系統工程,必須建立良好的運行機制,以促進(jìn)建設過(guò)程中各個(gè)環(huán)節的正規有序,實(shí)現統合,搞好頂層設計。
二是規范一套建設標準。沒(méi)有標準就沒(méi)有系統。應建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數據建設標準,為實(shí)現各級各類(lèi)信息系統的網(wǎng)絡(luò )互連、信息互通、資源共享奠定基礎。
三是搭建一個(gè)共享平臺。數據只有不斷流動(dòng)和充分共享,才有生命力。應在各專(zhuān)用數據庫建設的基礎上,通過(guò)數據集成,實(shí)現各級各類(lèi)指揮信息系統的數據交換和數據共享。
四是培養一支專(zhuān)業(yè)隊伍。大數據建設的每個(gè)環(huán)節都需要依靠專(zhuān)業(yè)人員完成,因此,必須培養和造就一支懂指揮、懂技術(shù)、懂管理的大數據建設專(zhuān)業(yè)隊伍。

大數據時(shí)代到來(lái),認同這一判斷的人越來(lái)越多。那么大數據意味著(zhù)什么,他到底會(huì )改變什么??jì)H僅從技術(shù)角度回答,已不足以解惑。大數據只是賓語(yǔ),離開(kāi)了人這個(gè)主語(yǔ),它再大也沒(méi)有意義。我們需要把大數據放在人的背景中加以透視,理解它作為時(shí)代變革力量的所以然。
未來(lái)十年,決定中國是不是有大智慧的核心意義標準(那個(gè)"思想者"),就是國民幸福。一體現在民生上,通過(guò)大數據讓有意義的事變得澄明,看我們在人與人關(guān)系上,做得是否比以前更有意義;二體現在生態(tài)上,通過(guò)大數據讓有意義的事變得澄明,看我們在天與人關(guān)系上,做得是否比以前更有意義??傊?,讓我們從前10年的意義混沌時(shí)代,進(jìn)入未來(lái)10年意義澄明時(shí)代。
生產(chǎn)者是有價(jià)值的,消費者是價(jià)值的意義所在。有意義的才有價(jià)值,消費者不認同的,就賣(mài)不出去,就實(shí)現不了價(jià)值;只有消費者認同的,才賣(mài)得出去,才實(shí)現得了價(jià)值。大數據幫助我們從消費者這個(gè)源頭識別意義,從而幫助生產(chǎn)者實(shí)現價(jià)值。這就是啟動(dòng)內需的原理。
隨著(zhù)具有語(yǔ)義網(wǎng)特征的數據基礎設施和數據資源發(fā)展起來(lái),組織的變革就越來(lái)越顯得不可避免。大數據將推動(dòng)網(wǎng)絡(luò )結構產(chǎn)生無(wú)組織的組織力量。最先反映這種結構特點(diǎn)的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、博客等。
大數據之所以成為時(shí)代變革力量,在于它通過(guò)追隨意義而獲得智慧。

周濤:大數據處理數據時(shí)代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。
大數據處理的流程
具體的大數據處理方法確實(shí)有很多,但是根據筆者長(cháng)時(shí)間的實(shí)踐,總結了一個(gè)普遍適用的大數據處理流程,并且這個(gè)流程應該能夠對大家理順大數據的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導入和預處理、統計和分析,最后是數據挖掘。
大數據的采集是指利用多個(gè)數據庫來(lái)接收發(fā)自客戶(hù)端(Web、App或者傳感器形式等)的數據,并且用戶(hù)可以通過(guò)這些數據庫來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。比如,電商會(huì )使用傳統的關(guān)系型數據庫MySQL和Oracle等來(lái)存儲每一筆事務(wù)數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。
在大數據的采集過(guò)程中,其主要特點(diǎn)和挑戰是并發(fā)數高,因為同時(shí)有可能會(huì )有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪(fǎng)問(wèn)和操作,比如火車(chē)票售票網(wǎng)站和淘寶,它們并發(fā)的訪(fǎng)問(wèn)量在峰值時(shí)達到上百萬(wàn),所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進(jìn)行負載均衡和分片的確是需要深入的思考和設計。
雖然采集端本身會(huì )有很多數據庫,但是如果要對這些海量數據進(jìn)行有效的分析,還是應該將這些來(lái)自前端的數據導入到一個(gè)集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡(jiǎn)單的清洗和預處理工作。也有一些用戶(hù)會(huì )在導入時(shí)使用來(lái)自Twitter的Storm來(lái)對數據進(jìn)行流式計算,來(lái)滿(mǎn)足部分業(yè)務(wù)的實(shí)時(shí)計算需求。
導入與預處理過(guò)程的特點(diǎn)和挑戰主要是導入的數據量大,每秒鐘的導入量經(jīng)常會(huì )達到百兆,甚至千兆級別。
統計與分析主要利用分布式數據庫,或者分布式計算集群來(lái)對存儲于其內的海量數據進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì )用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點(diǎn)和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會(huì )有極大的占用。
與前面統計和分析過(guò)程不同的是,數據挖掘一般沒(méi)有什么預先設定好的主題,主要是在現有數據上面進(jìn)行基于各種算法的計算,從而起到預測(Predict)的效果,從而實(shí)現一些高級別數據分析的需求。比較典型算法有用于聚類(lèi)的Kmeans、用于統計學(xué)習的SVM和用于分類(lèi)的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線(xiàn)程為主。
整個(gè)大數據處理的普遍流程至少應該滿(mǎn)足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數據處理
大數據應用的關(guān)鍵,也是其必要條件,就在于"IT"與"經(jīng)營(yíng)"的融合,當然,這里的經(jīng)營(yíng)的內涵可以非常廣泛,小至一個(gè)零售門(mén)店的經(jīng)營(yíng),大至一個(gè)城市的經(jīng)營(yíng)。以下是我整理的關(guān)于各行各業(yè),不同的組織機構在大數據方面的應用的案例,在此申明,以下案例均來(lái)源于網(wǎng)絡(luò ),本文僅作引用,并在此基礎上作簡(jiǎn)單的梳理和分類(lèi)。
[1] Seton Healthcare是采用IBM最新沃森技術(shù)醫療保健內容分析預測的首個(gè)客戶(hù)。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫療信息,通過(guò)大數據處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產(chǎn)嬰兒,每秒鐘有超過(guò)3000次的數據讀取。通過(guò)這些數據分析,醫院能夠提前知道哪些早產(chǎn)兒出現問(wèn)題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。
[3] 它讓更多的創(chuàng )業(yè)者更方便地開(kāi)發(fā)產(chǎn)品,比如通過(guò)社交網(wǎng)絡(luò )來(lái)收集數據的健康類(lèi)App。也許未來(lái)數年后,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說(shuō)不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會(huì )自動(dòng)提醒你再次服藥。
[1] 智能電網(wǎng)現在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽(yáng)能,會(huì )在家庭安裝太陽(yáng)能,除了賣(mài)電給你,當你的太陽(yáng)能有多余電的時(shí)候還可以買(mǎi)回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數據,收集來(lái)的這些數據可以用來(lái)預測客戶(hù)的用電習慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預測后,就可以向發(fā)電或者供電企業(yè)購買(mǎi)一定數量的電。因為電有點(diǎn)像期貨一樣,如果提前買(mǎi)就會(huì )比較便宜,買(mǎi)現貨就比較貴。通過(guò)這個(gè)預測后,可以降低采購成本。
[2] 維斯塔斯風(fēng)力系統,依靠的是BigInsights軟件和IBM超級計算機,然后對氣象數據進(jìn)行分析,找出安裝風(fēng)力渦輪機和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時(shí)便可完成。
[1] XO Communications通過(guò)使用IBM SPSS預測分析軟件,減少了將近一半的客戶(hù)流失率。XO現在可以預測客戶(hù)的行為,發(fā)現行為趨勢,并找出存在缺陷的環(huán)節,從而幫助公司及時(shí)采取措施,保留客戶(hù)。此外,IBM新的Netezza網(wǎng)絡(luò )分析加速器,將通過(guò)提供單個(gè)端到端網(wǎng)絡(luò )、服務(wù)、客戶(hù)分析視圖的可擴展平臺,幫助通信企業(yè)制定更科學(xué)、合理決策。
[2] 電信業(yè)者透過(guò)數以千萬(wàn)計的客戶(hù)資料,能分析出多種使用者行為和趨勢,賣(mài)給需要的企業(yè),這是全新的資料經(jīng)濟。
[3] 中國移動(dòng)通過(guò)大數據分析,對企業(yè)運營(yíng)的全業(yè)務(wù)進(jìn)行針對性的監控、預警、跟蹤。系統在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負責人,使他在最短時(shí)間內獲知市場(chǎng)行情。
[4] NTT docomo把手機位置信息和互聯(lián)網(wǎng)上的信息結合起來(lái),為顧客提供附近的餐飲店信息,接近末班車(chē)時(shí)間時(shí),提供末班車(chē)信息服務(wù)。
[1] "我們的某個(gè)客戶(hù),是一家領(lǐng)先的專(zhuān)業(yè)時(shí)裝零售商,通過(guò)當地的百貨商店、網(wǎng)絡(luò )及其郵購目錄業(yè)務(wù)為客戶(hù)提供服務(wù)。公司希望向客戶(hù)提供差異化服務(wù),如何定位公司的差異化,他們通過(guò)從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷(xiāo)模式,隨后他們認識到必須保留兩類(lèi)有價(jià)值的客戶(hù):高消費者和高影響者。希望通過(guò)接受免費化妝服務(wù),讓用戶(hù)進(jìn)行口碑宣傳,這是交易數據與交互數據的完美結合,為業(yè)務(wù)挑戰提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺上的數據充實(shí)了客戶(hù)主數據,使他的業(yè)務(wù)服務(wù)更具有目標性。
[2] 零售企業(yè)也監控客戶(hù)的店內走動(dòng)情況以及與商品的互動(dòng)。它們將這些數據與交易記錄相結合來(lái)展開(kāi)分析,從而在銷(xiāo)售哪些商品、如何擺放貨品以及何時(shí)調整售價(jià)上給出意見(jiàn),此類(lèi)方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤率自有品牌商品的比例。
聯(lián)系客服