新一年,信息化工作又要啟動(dòng)了,數據作為整個(gè)信息化的核心,如何開(kāi)展工作變成新年開(kāi)篇的重中之重。
大數據時(shí)代數據產(chǎn)生的價(jià)值越來(lái)越大,基于數據的相關(guān)技術(shù)、應用形式也在快速發(fā)展,開(kāi)發(fā)基于數據的新型應用已經(jīng)成為高校信息化建設的一個(gè)重點(diǎn)領(lǐng)域。當前各大廠(chǎng)商、用戶(hù)都在探索與數據相關(guān)的開(kāi)發(fā)技術(shù)、應用場(chǎng)景和商業(yè)模式,最終目的就是挖掘數據價(jià)值,推動(dòng)業(yè)務(wù)發(fā)展,實(shí)現盈利。目前數據應用項目非常多,但真正取得預期效果的項目少之又少,而且開(kāi)發(fā)過(guò)程困難重重,其中的一個(gè)重要原因就是數據質(zhì)量問(wèn)題導致許多預期需求無(wú)法實(shí)現。如果沒(méi)有數據治理,再多的業(yè)務(wù)和技術(shù)投入都是徒勞的,因為很經(jīng)典的一句話(huà):Garbage in Garbage out。數據治理是保證數據質(zhì)量的必需手段,從全球范圍來(lái)看,加強數據治理提升數據質(zhì)量已成為企業(yè)提升管理能力的重要任務(wù)。
數據治理是一個(gè)系統的、大型的、長(cháng)期的工程,大型企業(yè)已經(jīng)開(kāi)始了實(shí)施,并取得了一定成果,但目前高校在數據治理方面還沒(méi)有開(kāi)始真正意義上的實(shí)踐,究其原因,一方面高校還沒(méi)有把數據治理的重要性提升到戰略高度,另一方面沒(méi)有將數據治理單獨作為課題研究,沒(méi)有形成系統的實(shí)施方法論。本文從管理和技術(shù)兩方面出發(fā)探索適合高校信息化建設的數據治理方法,形成包含組織、制度、標準、流程、安全、技術(shù)等內容的數據治理方案,從而打造高校綠色數據生態(tài)環(huán)境,為數據應用提供基礎保障。
數據治理概念
數據治理并不是一個(gè)新生事物,可以說(shuō),有數據的地方就存在數據治理,只不過(guò)隨著(zhù)數據應用的迅猛發(fā)展將它提到了一個(gè)高度,作為一個(gè)獨立的研究領(lǐng)域。數據治理并沒(méi)有標準的、嚴格的定義,概況地講,所有為提高數據質(zhì)量而展開(kāi)的業(yè)務(wù)、技術(shù)和管理活動(dòng)都屬于數據治理范疇。
數據治理的英文是Data Governance,《DAMA 數據管理知識體系指南》一書(shū)給出的定義:數據治理是對數據資產(chǎn)管理行使權力和控制的活動(dòng)集合。數據治理職能指導其他數據管理職能如何執行,圖1說(shuō)明了數據治理與其他幾個(gè)數據管理職能的關(guān)系。
數據治理是技術(shù)與管理相結合的一套持續改善管理機制,貫穿在數據管理的整個(gè)過(guò)程中,通常包括了組織架構、政策制度、技術(shù)工具、數據標準、流程規范、監督及考核等方方面面,將其他幾個(gè)數據管理職能貫穿、協(xié)同在一起,讓企業(yè)的數據工作成為一個(gè)有機整體而不是各自為政。數據治理涉及的IT技術(shù)主題眾多,包括元數據管理、主數據管理、數據質(zhì)量、數據集成、監控與報告等。
數據治理體系框架
僅僅依靠技術(shù)手段,以建設系統的方式是難以有效解決數據治理面臨的所有問(wèn)題。構建數據治理體系是數據治理工作的基礎,為了有序實(shí)施數據治理,應采用規劃先行的原則,制定適合高校業(yè)務(wù)特點(diǎn)的管理流程,選擇可行的技術(shù)方案和實(shí)施工具,明確數據治理的工作機制和工作內容,穩步推進(jìn)數據治理各項工作,數據治理體系框架如圖2所示。
戰略:數據治理是在高校發(fā)展戰略和規劃的指導下進(jìn)行實(shí)施的,這些戰略和規劃包括業(yè)務(wù)發(fā)展目標、IT規劃以及數據治理相關(guān)的發(fā)展規劃。
機制:機制是數據治理工作實(shí)施的基礎保障,通過(guò)組織、制度、流程的建設和執行得以落實(shí)。機制是數據治理工作的重點(diǎn),數據治理執行效果就是機制落實(shí)的效果。
專(zhuān)題:數據治理專(zhuān)題是數據治理的工作內容,包括數據標準、數據治理、元數據、主數據、數據生命周期等方面。
實(shí)施:數據治理工作最終在相關(guān)制度、規范和流程下通過(guò)數據治理組織借助技術(shù)手段和管理手段來(lái)實(shí)現。包括系統開(kāi)發(fā)階段為提高數據質(zhì)量進(jìn)行的校驗設計;系統日常運維工作;數據分析應用階段的數據集成;數據質(zhì)量監控等。
數據治理措施
管理措施
1.提高全面思想認識
毋庸置疑,數據是高校的寶貴資產(chǎn),各高校已經(jīng)意識到數據質(zhì)量的重要性,但是并沒(méi)有將數據治理提到戰略高度,信息化建設的重點(diǎn)仍然是應用系統建設和運維。數據治理是一個(gè)系統工程,需要管理層、系統開(kāi)發(fā)人員、系統使用人員、系統維護人員多方協(xié)作才能進(jìn)行。目前最大的問(wèn)題就是各方人員對數據治理的認識還處于盲區,他們并沒(méi)有意識到數據治理的重要性,因此數據治理首先要從上到下全面提高思想認識,保證在系統建設、系統運行、系統維護各個(gè)環(huán)節都能重視數據治理。
2.成立數據治理組織
健全的數據治理組織是全面開(kāi)展數據治理工作的基礎,數據治理組織應包括管理人員、業(yè)務(wù)人員和技術(shù)人員,缺一不可。數據治理組織可以設置三種角色,數據治理委員會(huì )、數據治理業(yè)務(wù)組、數據治理技術(shù)組。
數據治理委員會(huì ):由校領(lǐng)導、IT部門(mén)負責人和業(yè)務(wù)部門(mén)負責人組成,負責制定數據治理的目標、制度、規范、流程、標準等,溝通協(xié)調,解決相關(guān)人員責、權、利問(wèn)題,推行數據治理文化。
數據治理業(yè)務(wù)組:由業(yè)務(wù)部門(mén)業(yè)務(wù)專(zhuān)家、業(yè)務(wù)部門(mén)系統管理員組成,負責業(yè)務(wù)系統參數、基礎數據維護,保證系統正常使用;負責審核、檢查、整改業(yè)務(wù)數據,在數據產(chǎn)生源頭提高數據質(zhì)量。
數據治理技術(shù)組:由IT部門(mén)的相關(guān)技術(shù)人員組成,包括系統開(kāi)發(fā)人員、數據治理人員、數據庫管理員。系統開(kāi)發(fā)人員負責系統數據錄入功能符合數據校驗標準和數據治理標準;數據治理人員負責開(kāi)發(fā)數據質(zhì)量檢測規則、監控數據質(zhì)量、批量修改數據等工作;數據庫管理員負責系統數據的備份、恢復、安全、審計等工作。
3.建立數據標準體系
一般來(lái)說(shuō),信息化建設應遵循標準先行的原則,在應用系統建設初期就應該制定高校內部數據標準體系,保證各業(yè)務(wù)部門(mén)、各業(yè)務(wù)系統使用相同的數據標準,提高部門(mén)間、系統間數據共享能力,避免形成信息孤島。數據標準體系包括數據標準、技術(shù)標準、管理標準、數據質(zhì)量標準等內容,可以成立由業(yè)務(wù)人員和技術(shù)人員組成的數據標準制定小組,負責數據標準體系的制定、維護、宣傳、解釋等工作。
4.制定數據質(zhì)量管控規范
由于高校缺乏明確的數據質(zhì)量管控規范、流程,導致數據治理相關(guān)人員職責劃分不清,缺乏專(zhuān)職人員在不同階段對數據質(zhì)量負責。通過(guò)制定數據質(zhì)量管控規范,使相關(guān)人員明確在數據產(chǎn)生、存儲、應用整個(gè)生命周期中數據治理包含的工作內容和工作流程,形成校內統一管理體系。為了提高數據治理執行效率,有必要建立數據治理績(jì)效考核,檢驗數據治理各個(gè)環(huán)節的效果。
5.制定數據安全管理制度
保障數據安全是高校信息化的首要工作,高校應該制定貫穿于數據生命周期的數據安全管理制度,包括數據生成及傳輸、
數據存儲、數據處理及應用、數據銷(xiāo)毀四個(gè)方面。安全管理制度主要用來(lái)規范員工在日常工作中安全地使用數據,并且指導技術(shù)人員如何實(shí)施數據安全工作。
技術(shù)措施
1.構建校級數據架構
高校構建的信息系統以滿(mǎn)足功能應用為主,如果沒(méi)有整體數據架構,應用系統就沒(méi)有數據標準可參考,不可避免地會(huì )出現不同的應用系統使用不同的數據標準和數據庫,導致數據交換、數據共享困難,數據冗余、數據完整性、數據一致性等問(wèn)題突出。
理想情況下,高校在信息化初期就應該規劃整體數據架構。一個(gè)完整的高校數據架構主要包括:數據標準、數據庫產(chǎn)品線(xiàn)、主數據、元數據、數據質(zhì)量、數據安全、數據交換、數據倉庫。每一部分都需要作為獨立的專(zhuān)題去建設,而且必須是技術(shù)與管理相結合的建設過(guò)程,最終形成高校全局數據架構。
2.加強信息系統設計
產(chǎn)生數據質(zhì)量問(wèn)題的第一個(gè)環(huán)節就是生成數據的源系統,在數據源頭解決數據質(zhì)量問(wèn)題是提高數據質(zhì)量非常有效的措施。加強信息系統設計和開(kāi)發(fā)可以通過(guò)系統功能自動(dòng)地規避大量數據質(zhì)量常見(jiàn)問(wèn)題。具體包括以下三個(gè)方面:
細化需求,在需求分析階段增加對數據質(zhì)量的詳細要求;
加強數據庫設計,使用3NF范式構建業(yè)務(wù)系統數據模型可以通過(guò)數據庫有效解決數據冗余、不一致等問(wèn)題;
系統開(kāi)發(fā)階段加強數據錄入功能的設計和開(kāi)發(fā),提高界面友好性和校驗功能,可以有效解決數據完整性、時(shí)效性等問(wèn)題。
3.建立主數據中心
學(xué)校內部不同應用系統、不同部門(mén)間需要共享數據的現象非常普遍,建立主數據中心不僅能避免各應用系統相互共享數據形成網(wǎng)狀結構,同時(shí)能夠保證對外提供準確、一致的數據。一般地,主數據是描述核心業(yè)務(wù)實(shí)體的數據,如教師、學(xué)生、科研成果、資產(chǎn)等,這些數據變化相對緩慢并通??鐦I(yè)務(wù)重復使用。這里我們結合實(shí)際需求情況擴大了主數據的范圍,凡是需要交換、共享的數據都納入到主數據范圍,形成全校范圍內一致的、完整的、準確的核心業(yè)務(wù)數據,統一由主數據中心完成對外提供數據的任務(wù)。建立主數據中心不僅僅是技術(shù)工作,除開(kāi)發(fā)、維護外還需要制定開(kāi)發(fā)規范、管理規范、管理流程,共同規范主數據的使用。
4.搭建數據質(zhì)量監控平臺
通過(guò)搭建數據質(zhì)量監控平臺可以實(shí)現數據質(zhì)量自動(dòng)檢查、監控,平臺包括數據質(zhì)量檢查規則庫、規則執行引擎、數據質(zhì)量報告、報告推送功能。平臺的核心是規則庫,與業(yè)務(wù)無(wú)關(guān)的規則由技術(shù)人員獨立開(kāi)發(fā),與業(yè)務(wù)相關(guān)的規則需要技術(shù)人員和業(yè)務(wù)人員共同確定檢查規則,然后編寫(xiě)規則腳本。規則執行引擎可以定時(shí)批量執行檢查規則,及時(shí)發(fā)現數據質(zhì)量問(wèn)題,將數據質(zhì)量報告第一時(shí)間推送給業(yè)務(wù)人員,有助于及時(shí)糾正問(wèn)題數據。
5.實(shí)施數據安全工作
數據安全實(shí)施工作在數據安全管理制度的指導下執行,由技術(shù)人員完成,主要包括數據備份、恢復、脫敏、監控、審計等。
數據治理是高校信息化建設中提高數據應用水平和信息化管理水平的有效手段。數據治理是一項長(cháng)期系統工程,貫穿于整個(gè)數據生命周期,不僅需要借助技術(shù)手段,更需要完善數據治理制度,包括規劃、組織、機制、規范、流程等,只有全校各級人員高度重視和積極參與,逐步形成數據治理文化,數據治理才能取得成效,數據才能發(fā)揮更大的價(jià)值。
轉自中國教育和科研計算機網(wǎng)
聯(lián)系客服