作者丨石秀峰
來(lái)源丨談數據 168大數據經(jīng)作者授權發(fā)布。
文章共3960個(gè)字,建議閱讀需15分鐘
關(guān)于“數據中臺”網(wǎng)絡(luò )中充斥著(zhù)很多的觀(guān)點(diǎn)、概念、技術(shù)、理論、實(shí)踐等文章,可真是“你方唱罷我方登場(chǎng)”,好不熱鬧!抱著(zhù)學(xué)習的心態(tài)我看了很多數據中臺的文章,尤其是對“數據中臺”的始作俑者阿里巴巴的數據中臺相關(guān)文章進(jìn)行研讀。以下是個(gè)人學(xué)習心得和個(gè)人理解,如有偏頗還請斧正。來(lái)源:《阿里巴巴數據中臺實(shí)踐分享》
從阿里巴巴數據中臺全景圖中我們看到,阿里的數據中臺主要由三個(gè)部分組成:數據資產(chǎn)管理IPaaS、數據中臺DaaS、數據研發(fā)平臺IPaaS。數據資產(chǎn)管理其核心是基于元數據管理技術(shù)實(shí)現數據資產(chǎn)的“可看、可找、可用”,主要提供資產(chǎn)地圖、資產(chǎn)分析、資產(chǎn)管理、資產(chǎn)應用、資產(chǎn)運營(yíng)等功能。通過(guò)數據地圖讓數據管理和使用者,清楚的知道企業(yè)都有哪些數據,這些數據存在什么地方,數據被誰(shuí)管理,如何獲取等等;資產(chǎn)分析是利用BI技術(shù)對數據資產(chǎn)進(jìn)行統計分析,并提供可視化服務(wù),例如:按主題、類(lèi)型的統計數據資產(chǎn)數量、數據資產(chǎn)的質(zhì)量和數據資產(chǎn)的使用情況等;資產(chǎn)管理可以理解為對元數據的管理,包括元數據的增刪改查;資產(chǎn)應用可以理解為通過(guò)元數據管理提升數據資產(chǎn)的利用率,比如:數據資產(chǎn)的熱度分析、全鏈分析、影響分析等;而資產(chǎn)運營(yíng)嚴格意義上說(shuō)不能是一個(gè)功能,而是為了提升數據資產(chǎn)質(zhì)量和使用效率的一系列措施,可能涉及組織、制度、績(jì)效考核等等方面。通過(guò)數據資產(chǎn)管理激活企業(yè)的沉睡的數據,從而促進(jìn)數據的使用。數據研發(fā)平臺包括了數倉規劃、模型構建、指標規范、數據同步、數據開(kāi)發(fā)、任務(wù)調度、監控告警等功能,可以理解為數據倉庫建設過(guò)程中所用到的相關(guān)技術(shù)與工具,而在這方面阿里有一個(gè)核心的產(chǎn)品Dataphin(智能數據構建與管理)是一款用于大數據平臺建設的智能引擎,提供數倉規劃、數據引入、規范定義、數據建模研發(fā)、數據資產(chǎn)管理、數據服務(wù)等的全鏈路智能數據構建及管理服務(wù)。對于數 據研發(fā)平臺IPaaS是否是對應Dataphin產(chǎn)品,這里就不去探究了。數據中臺DaaS主要包含了垂直數據中心:面向各垂直行業(yè)應用的統一數據接入平臺OneClick;公共數據中心:面向公共數據中心以業(yè)務(wù)板塊+業(yè)務(wù)過(guò)程+分析維度架構的Onedata體系;萃取數據中心:面向業(yè)務(wù)對象+數據標簽的OneID體系;數據開(kāi)放共享中心:面向應用及開(kāi)放的統一數據服務(wù)中間件OneService。這四個(gè)“One”構成了阿里巴巴數據中臺的核心!來(lái)源:2019阿里云峰會(huì )上海站的《數據中臺實(shí)踐分享》OneClick是架構在阿里各垂直應用上的數據統一采集/接入平臺,所以從概念上來(lái)看,OneClick就是傳統的ETL,負責異構數據源的在線(xiàn)或離線(xiàn)的數據的采集、轉換、清洗和裝載。但看了2019阿里云峰會(huì )上海站的《阿里巴巴數據中臺實(shí)踐分享》PPT后,又覺(jué)得OneClick可能并不是或者不完全是傳統ETL的概念。如上圖:我們能夠從這個(gè)PPT中依然看到垂直數據中心,但卻沒(méi)有了OneClick的影子。所以,我理解OneClick可能只是垂直數據中心中的一個(gè)概念,我們看到阿里的數據生態(tài)包含了淘寶、天貓、聚劃算、阿里媽媽、UC、盒馬、優(yōu)酷土豆、高德、天氣、專(zhuān)利等。這些垂直應用數據多樣、結構復雜、實(shí)時(shí)性要求也不同,一個(gè)ETL工具并不能滿(mǎn)足其數據統一采集和接入的要求,可能還包括網(wǎng)絡(luò )爬蟲(chóng)、文件傳輸等工具。來(lái)源:2019阿里云峰會(huì )上海站的《數據中臺實(shí)踐分享》OneData體系是阿里數據中臺的核心方法論,其包含了三個(gè)方面內容:OneModel 即建立企業(yè)統一的數據公共層,從設計、開(kāi)發(fā)、部署和使用上保障了數據口徑規范和統一,實(shí)現數據資產(chǎn)全鏈路管理,提供標準數據輸出。OneID 即建立業(yè)務(wù)實(shí)體要素資產(chǎn)化為核心,實(shí)現全域鏈接、標簽萃取、立體畫(huà)像,其數據服務(wù)理念根植于心,強調業(yè)務(wù)模式。OneService 即數據被整合和計算好之后,需要提供給產(chǎn)品和應用進(jìn)行數據消費,為了更好的性能和體驗,需要構建數據服務(wù)層,通過(guò)統一的接口服務(wù)化方式對外提供數據服務(wù)。來(lái)源:2019阿里云峰會(huì )上海站的《數據中臺實(shí)踐分享》在阿里云棲社區上的一篇文章《OneModel體系能給數據中臺的建設帶來(lái)什么?》中,是這樣描述OneModel的:OneModel方法論保障了數據唯一性的數據域、業(yè)務(wù)過(guò)程,以及在數據域、業(yè)務(wù)過(guò)程之下的指標、實(shí)體屬性等的結構性封裝、命名和定義。數據規范定義是在開(kāi)發(fā)之前,以業(yè)務(wù)的視角進(jìn)行數據的統一和標準定義,確保計算口徑一致、算法一致、命名一致,后續的數據模型設計和ETL開(kāi)發(fā)都是在此基礎上進(jìn)行的。OneModel方法論與我之前分享《數據治理系列3:數據標準管理》中的觀(guān)點(diǎn)是基本一致的,OneModel可以說(shuō)是為數據標準化而生。首先,數據模型的標準化。規范和統一業(yè)務(wù)定義、業(yè)務(wù)規則、字段命名、字段長(cháng)度、字段類(lèi)型等內容,本質(zhì)上是元數據管理。主要包含三個(gè)方面:①業(yè)務(wù)元數據:對企業(yè)數據的業(yè)務(wù)定義、業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)規則進(jìn)行標準化;②技術(shù)元數據:對數據的存儲位置、數據模型、數據庫表、字段長(cháng)度、字段類(lèi)型、ETL腳本、SQL腳本、接口程序、數據關(guān)系進(jìn)行標準化;③管理元數據,對數據的管理屬性,包括管理部門(mén)、管理責任人、權限等進(jìn)行標準化。后續的數據采集、處理、分析等操作都是基于數據模型標準化的基礎之上進(jìn)行的。其次,業(yè)務(wù)指標的標準化。主要是對企業(yè)業(yè)務(wù)指標所涉及的指標項的統一定義和管理,構建命名規范、口徑一致和算法統一的統計指標,為上層數據產(chǎn)品、應用和服務(wù)提供公共指標。據阿里巴巴公共數據平臺負責人介紹,阿里通過(guò)對30000多個(gè)數據指標進(jìn)行了口徑的規范和統一,梳理后縮減為3000余個(gè),盡管工程浩大,但是此舉卻為阿里帶來(lái)了顯著(zhù)的收效。第三,主數據與參照數據的標準化。主數據是用來(lái)描述企業(yè)核心業(yè)務(wù)實(shí)體的數據,比如客戶(hù)、供應商、員工、產(chǎn)品、物料等;它是具有高業(yè)務(wù)價(jià)值的、可以在企業(yè)內跨越各個(gè)業(yè)務(wù)部門(mén)被重復使用的數據,被譽(yù)為企業(yè)的“黃金數據”。參考數據是用于將其他數據進(jìn)行分類(lèi)或目錄整編的數據,是規定數據元的域值范圍。在阿里的OneModel方法論中并沒(méi)有提及主數據與參照數據的標準化,這個(gè)是我《數據治理系列3:數據標準管理》中的觀(guān)點(diǎn)。同時(shí),我認為阿里數據中臺的OneID體系其實(shí)就是干了這個(gè)主數據管理的事情。來(lái)源:2019阿里云峰會(huì )上海站的《數據中臺實(shí)踐分享》為什么我說(shuō)阿里數據中臺的OneID,其實(shí)本質(zhì)上是主數據管理的事情?在阿里巴巴數據中臺官方宣傳資料中,我們看到這樣的定義:“OneID是以商業(yè)要素資產(chǎn)化為核心,實(shí)現全域鏈接、標簽萃取、立體畫(huà)像,數據應用服務(wù)整體解決方案?!边@里的商業(yè)要素就是消費者、企業(yè)、內容、商品、位置等核心業(yè)務(wù)實(shí)體數據,傳統上我們稱(chēng)其為主數據。而OneID也叫數據萃取中心,就是通過(guò)標簽技術(shù)、知識圖譜技術(shù)、畫(huà)像技術(shù)在虛擬的網(wǎng)絡(luò )世界實(shí)現商業(yè)要素(主數據)的唯一身份識別,保證企業(yè)核心數據的身份唯一性、一致性、完整性、相關(guān)性和準確性。所以,OneID可以理解為主數據管理,只是用的技術(shù)更先進(jìn)些罷了。如果您也認同:“阿里數據中臺的OneID,本質(zhì)上就是企業(yè)主數據管理”的這個(gè)觀(guān)點(diǎn),請在文末點(diǎn)擊【再看】支持我。但我相信一定也有人反對這個(gè)觀(guān)點(diǎn),因為在現行的主數據管理方案中,總體上還是趨于用標準、制度、流程、集成技術(shù)等手段解決主數據的問(wèn)題,標簽體系、知識圖譜、畫(huà)像技術(shù)、混合云技術(shù)等先進(jìn)的技術(shù)目前還沒(méi)有大規模用在主數據管理領(lǐng)域,但是我相信這終將是主數據發(fā)展的趨勢!技術(shù)推動(dòng)社會(huì )發(fā)展,主數據管理又豈能固步自封!來(lái)源:2019阿里云峰會(huì )上海站的《數據中臺實(shí)踐分享》
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。