一鍵處理One Click,標簽化數據Data Profile……
在今天的Strata Hadoop World 首屆北京會(huì )議上,阿里巴巴數據技術(shù)及產(chǎn)品部高級技術(shù)專(zhuān)家張磊拋出了兩個(gè)非常新鮮的功能名詞。
One Click、Data Profile這兩個(gè)都是在阿里數據One Data體系內,為了高效率地開(kāi)展數據研發(fā)工作而開(kāi)發(fā)出來(lái)的功能模塊。此前,課代表已經(jīng)為大家介紹過(guò)兩篇關(guān)于OneData的文章。(回復“OneData”獲取過(guò)往筆記的推送)
阿里巴巴數據技術(shù)及產(chǎn)品部高級技術(shù)專(zhuān)家張磊
今天,課代表就把張磊在會(huì )議中的分享,摘錄一些重點(diǎn)干貨給大家。
在阿里內部,數據研發(fā)工作比大家想象中的還要繁雜得多。這主要是由阿里數據自身定位決定的。阿里數據定位于阿里集團的數據中臺。
就數據資產(chǎn)而言,阿里數據實(shí)際上擁有了海量的各類(lèi)業(yè)務(wù)數據,比如電商交易數據、支付數據、風(fēng)險數據、視頻數據、音樂(lè )數據、地理位置數據、物流數據……
體量龐大的數據,加上數據本身與業(yè)務(wù)的強相關(guān)勢必會(huì )給數據研發(fā)工作帶了極大的挑戰:交付時(shí)間受限、發(fā)布上線(xiàn)頻率高、運維任務(wù)眾多、系統環(huán)境復雜。
面臨這些挑戰,除了加強工具建設并與研發(fā)流程打通等常規方法外,阿里數據還在數據處理上,探索出了一些能讓研發(fā)更為高效的創(chuàng )新方法。
由于阿里數據擁有的數據體量實(shí)在難以估量,我們很難精確地說(shuō)清楚到底擁有哪些數據、這些數據存儲在哪里,如何使用它們等等。過(guò)去,數據研發(fā)人員在尋找數據、確認口徑算法等工序上,花費了大量的人力和時(shí)間。
而Data Profile的出現,恰好解決了研發(fā)初期數據處理的繁雜困境,既節約了時(shí)間成本,同時(shí)也縮減了相當一部分人力資源。它的核心思路即是為紛繁復雜的數據建立一個(gè)脈絡(luò )清晰的血緣圖譜。通過(guò)圖計算、標簽傳播算法等技術(shù),系統化、自動(dòng)化地對計算與存儲平臺上的數據進(jìn)行打標、整理、歸檔。
形象地來(lái)看, Data Profile實(shí)際承擔的是為元數據“畫(huà)像”的任務(wù)。
就像我們可以為用戶(hù)的網(wǎng)購行為打上不同的行為標簽一樣。如果我們也用同樣的思維來(lái)看待數據本身,那么原本冷冰冰的僵硬數據,實(shí)際上也變得有血有肉、個(gè)性鮮明。
數據之間的個(gè)性化,除了應用場(chǎng)景的不同之外,實(shí)際上在數據的研發(fā)流程、保障登記、數據質(zhì)量要求、安全等級、運維策略、告警設置上都會(huì )有差異。根據這種差異化, Data Profile開(kāi)發(fā)出了四類(lèi)標簽。
1、基礎標簽:針對數據的存儲情況、訪(fǎng)問(wèn)情況、安全等級等進(jìn)行打標。
2、 數倉標簽:針對數據是否是增量or全量、是否可再生、數據的生命周期來(lái)進(jìn)行標簽化處理。
3、業(yè)務(wù)標簽:根據數據歸屬的主題域、歸屬產(chǎn)品線(xiàn)、業(yè)務(wù)類(lèi)型為數據蓋上不同的標簽。
4、潛在標簽:這類(lèi)標簽主要是為了說(shuō)明數據潛在的應用場(chǎng)景,比如社交、媒體、廣告、電商、金融等。
利用Data Profile,我們不僅可以節約研發(fā)人員的時(shí)間成本,同時(shí)對阿里內部的非研發(fā)人員來(lái)說(shuō),也可以更直觀(guān)地理解數據,利用數據,從而提升數據的研發(fā)效率。
在OneData體系里,讓數據研發(fā)更高效的工具還有OneClick。OneClick顧名思義,就是通過(guò)一鍵點(diǎn)擊的方式,來(lái)提高數據研發(fā)的效率。目前OneClick主要覆蓋的場(chǎng)景有兩個(gè):一是數據同步,另一個(gè)是存量數據日常維護。
<END>
阿里數據
讓你了解數據在阿里的一點(diǎn)一滴
聯(lián)系客服