如上圖所示,淘寶的海量數據產(chǎn)品技術(shù)架構分為五個(gè)層次,從上至下來(lái)看它們分別是:數據源,計算層,存儲層,查詢(xún)層和產(chǎn)品層。
數據來(lái)源層。存放著(zhù)淘寶各店的交易數據。在數據源層產(chǎn)生的數據,通過(guò)DataX,DbSync和Timetunel準實(shí)時(shí)的傳輸到下面第2點(diǎn)所述的“云梯”。
計算層。在這個(gè)計算層內,淘寶采用的是Hadoop集群,這個(gè)集群,我們暫且稱(chēng)之為云梯,是計算層的主要組成部分。在云梯上,系統每天會(huì )對數據產(chǎn)品進(jìn)行不同的MapReduce計算。
存儲層。在這一層,淘寶采用了兩個(gè)東西,一個(gè)使MyFox,一個(gè)是Prom。MyFox是基于MySQL的分布式關(guān)系型數據庫的集群,Prom是基于Hadoop Hbase技術(shù)的一個(gè)NoSQL的存儲集群。
查詢(xún)層。在這一層中,Glider是以HTTP協(xié)議對外提供restful方式的接口。數據產(chǎn)品通過(guò)一個(gè)唯一的URL來(lái)獲取到它想要的數據。同時(shí),數據查詢(xún)即是通過(guò)MyFox來(lái)查詢(xún)的。
最后一層是產(chǎn)品層,這個(gè)就不用解釋了。
存儲技術(shù)
大數據可以抽象的分為大數據存儲和大數據分析,這兩者的關(guān)系是:大數據存儲的目的是支撐大數據分析。到目前為止,還是兩種截然不同的計算機技術(shù)領(lǐng)域:大數據存儲致力于研發(fā)可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關(guān)注在最短時(shí)間內處理大量不同類(lèi)型的數據集。
提到存儲,有一個(gè)著(zhù)名的摩爾定律相信大家都聽(tīng)過(guò):18個(gè)月集成電路的復雜性就增加一倍。所以,存儲器的成本大約每18-24個(gè)月就下降一半。成本的不斷下降也造就了大數據的可存儲性。
比如,Google大約管理著(zhù)超過(guò)50萬(wàn)臺服務(wù)器和100萬(wàn)塊硬盤(pán),而且Google還在不斷的擴大計算能力和存儲能力,其中很多的擴展都是基于在廉價(jià)服務(wù)器和普通存儲硬盤(pán)的基礎上進(jìn)行的,這大大降低了其服務(wù)成本,因此可以將更多的資金投入到技術(shù)的研發(fā)當中。
以Amazon舉例,Amazon S3 是一種面向 Internet 的存儲服務(wù)。該服務(wù)旨在讓開(kāi)發(fā)人員能更輕松的進(jìn)行網(wǎng)絡(luò )規模計算。Amazon S3 提供一個(gè)簡(jiǎn)明的 Web 服務(wù)界面,用戶(hù)可通過(guò)它隨時(shí)在 Web 上的任何位置存儲和檢索的任意大小的數據。此服務(wù)讓所有開(kāi)發(fā)人員都能訪(fǎng)問(wèn)同一個(gè)具備高擴展性、可靠性、安全性和快速價(jià)廉的基礎設施,Amazon 用它來(lái)運行其全球的網(wǎng)站網(wǎng)絡(luò )。再看看S3的設計指標:在特定年度內為數據元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能夠承受兩個(gè)設施中的數據同時(shí)丟失。
S3很成功也確實(shí)卓有成效,S3云的存儲對象已達到萬(wàn)億級別,而且性能表現相當良好。S3云已經(jīng)擁萬(wàn)億跨地域存儲對象,同時(shí)AWS的對象執行請求也達到百萬(wàn)的峰值數量。目前全球范圍內已經(jīng)有數以十萬(wàn)計的企業(yè)在通過(guò)AWS運行自己的全部或者部分日常業(yè)務(wù)。這些企業(yè)用戶(hù)遍布190多個(gè)國家,幾乎世界上的每個(gè)角落都有Amazon用戶(hù)的身影。
感知技術(shù)
大數據的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù),指紋識別技術(shù),RFID技術(shù),坐標定位技術(shù)等為基礎的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。全世界的工業(yè)設備、汽車(chē)、電表上有著(zhù)無(wú)數的數碼傳感器,隨時(shí)測量和傳遞著(zhù)有關(guān)位置、運動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,都會(huì )產(chǎn)生海量的數據信息。
而隨著(zhù)智能手機的普及,感知技術(shù)可謂迎來(lái)了發(fā)展的高峰期,除了地理位置信息被廣泛的應用外,一些新的感知手段也開(kāi)始登上舞臺,比如,最新的”iPhone 5S”在home鍵內嵌指紋傳感器,新型手機可通過(guò)呼氣直接檢測燃燒脂肪量,用于手機的嗅覺(jué)傳感器面世可以監測從空氣污染到危險的化學(xué)藥品,微軟正在研發(fā)可感知用戶(hù)當前心情智能手機技術(shù),谷歌眼鏡InSight新技術(shù)可通過(guò)衣著(zhù)進(jìn)行人物識別。
除此之外,還有很多與感知相關(guān)的技術(shù)革新讓我們耳目一新:比如,牙齒傳感器實(shí)時(shí)監控口腔活動(dòng)及飲食狀況,嬰兒穿戴設備可用大數據去養育寶寶,Intel正研發(fā)3D筆記本攝像頭可追蹤眼球讀懂情緒,日本公司開(kāi)發(fā)新型可監控用戶(hù)心率的紡織材料,業(yè)界正在嘗試將生物測定技術(shù)引入支付領(lǐng)域等。
其實(shí),這些感知被逐漸捕獲的過(guò)程就是就世界被數據化的過(guò)程,一旦世界被完全數據化了,那么世界的本質(zhì)也就是信息了。
就像一句名言所說(shuō),“人類(lèi)以前延續的是文明,現在傳承的是信息?!?/p>
大數據的實(shí)踐
互聯(lián)網(wǎng)的大數據
互聯(lián)網(wǎng)上的數據每年增長(cháng)50%,每?jì)赡瓯銓⒎环?,而目前世界?0%以上的數據是最近幾年才產(chǎn)生的。據IDC預測,到2020年全球將總共擁有35ZB的數據量?;ヂ?lián)網(wǎng)是大數據發(fā)展的前哨陣地,隨著(zhù)WEB2.0時(shí)代的發(fā)展,人們似乎都習慣了將自己的生活通過(guò)網(wǎng)絡(luò )進(jìn)行數據化,方便分享以及記錄并回憶。
互聯(lián)網(wǎng)上的大數據很難清晰的界定分類(lèi)界限,我們先看看BAT的大數據:
百度擁有兩種類(lèi)型的大數據:用戶(hù)搜索表征的需求數據;爬蟲(chóng)和阿拉丁獲取的公共web數據。搜索巨頭百度圍繞數據而生。它對網(wǎng)頁(yè)數據的爬取、網(wǎng)頁(yè)內容的組織和解析,通過(guò)語(yǔ)義分析對搜索需求的精準理解進(jìn)而從海量數據中找準結果,以及精準的搜索引擎關(guān)鍵字廣告,實(shí)質(zhì)上就是一個(gè)數據的獲取、組織、分析和挖掘的過(guò)程。搜索引擎在大數據時(shí)代面臨的挑戰有:更多的暗網(wǎng)數據;更多的WEB化但是沒(méi)有結構化的數據;更多的WEB化、結構化但是封閉的數據。
阿里巴巴擁有交易數據和信用數據。這兩種數據更容易變現,挖掘出商業(yè)價(jià)值。除此之外阿里巴巴還通過(guò)投資等方式掌握了部分社交數據、移動(dòng)數據。如微博和高德。
騰訊擁有用戶(hù)關(guān)系數據和基于此產(chǎn)生的社交數據。這些數據可以分析人們的生活和行為,從里面挖掘出政治、社會(huì )、文化、商業(yè)、健康等領(lǐng)域的信息,甚至預測未來(lái)。
在信息技術(shù)更為發(fā)達的美國,除了行業(yè)知名的類(lèi)似Google,Facebook外,已經(jīng)涌現了很多大數據類(lèi)型的公司,它們專(zhuān)門(mén)經(jīng)營(yíng)數據產(chǎn)品,比如:
Metamarkets:這家公司對Twitter、支付、簽到和一些與互聯(lián)網(wǎng)相關(guān)的問(wèn)題進(jìn)行了分析,為客戶(hù)提供了很好的數據分析支持。
Tableau:他們的精力主要集中于將海量數據以可視化的方式展現出來(lái)。Tableau為數字媒體提供了一個(gè)新的展示數據的方式。他們提供了一個(gè)免費工具,任何人在沒(méi)有編程知識背景的情況下都能制造出數據專(zhuān)用圖表。這個(gè)軟件還能對數據進(jìn)行分析,并提供有價(jià)值的建議。
ParAccel:他們向美國執法機構提供了數據分析,比如對15000個(gè)有犯罪前科的人進(jìn)行跟蹤,從而向執法機構提供了參考性較高的犯罪預測。他們是犯罪的預言者。
QlikTech:QlikTech旗下的Qlikview是一個(gè)商業(yè)智能領(lǐng)域的自主服務(wù)工具,能夠應用于科學(xué)研究和藝術(shù)等領(lǐng)域。為了幫助開(kāi)發(fā)者對這些數據進(jìn)行分析,QlikTech提供了對原始數據進(jìn)行可視化處理等功能的工具。
GoodData:GoodData希望幫助客戶(hù)從數據中挖掘財富。這家創(chuàng )業(yè)公司主要面向商業(yè)用戶(hù)和IT企業(yè)高管,提供數據存儲、性能報告、數據分析等工具。
TellApart:TellApart和電商公司進(jìn)行合作,他們會(huì )根據用戶(hù)的瀏覽行為等數據進(jìn)行分析,通過(guò)鎖定潛在買(mǎi)家方式提高電商企業(yè)的收入。
DataSift:DataSift主要收集并分析社交網(wǎng)絡(luò )媒體上的數據,并幫助品牌公司掌握突發(fā)新聞的輿論點(diǎn),并制定有針對性的營(yíng)銷(xiāo)方案。這家公司還和Twitter有合作協(xié)議,使得自己變成了行業(yè)中為數不多可以分析早期tweet的創(chuàng )業(yè)公司。
Datahero:公司的目標是將復雜的數據變得更加簡(jiǎn)單明了,方便普通人去理解和想象。
舉了很多例子,這里簡(jiǎn)要歸納一下,在互聯(lián)網(wǎng)大數據的典型代表性包括:
1-用戶(hù)行為數據(精準廣告投放、內容推薦、行為習慣和喜好分析、產(chǎn)品優(yōu)化等)
2-用戶(hù)消費數據(精準營(yíng)銷(xiāo)、信用記錄分析、活動(dòng)促銷(xiāo)、理財等)
3-用戶(hù)地理位置數據(O2O推廣,商家推薦,交友推薦等)
4-互聯(lián)網(wǎng)金融數據(P2P,小額貸款,支付,信用,供應鏈金融等)
5-用戶(hù)社交等UGC數據(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會(huì )問(wèn)題分析等)
| 【內容導航】 |
| |
聯(lián)系客服