數據治理治什么?在哪治?怎么治?
今天我們來探討一下關于數據治理的靈魂三問:
? ? 1、數據治理治什么,治的是數據嗎?
? ? 2、數據治理在哪里治,中臺還是后臺?
? ? 3、數據治理到底怎么治?
一、數據治理治的是“數據”嗎?
? ? ? ?數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。其實在我看來,數據可以分為兩個部分,一是數字,二是文字。數字是沒有意義的抽象符號,數據是有意義的數字。文字表意,數字表量,當兩者結合起來,數據就產生了。
? ? ? ?在我們的生活和工作當中,數據無處不在。對企業來講,有很多數據是無關企業重大利益的數據,是沒有治理的必要的。數據治理的對象必須是重要的數據資源,是關乎企業重大商業利益的數據資源,這樣的數據資源可以稱其為“數據資產”。正如北大教授王漢生先生所說:“數據治理不是對“數據”的治理,而是對“數據資產”的治理,是對數據資產所有相關方利益的協調與規范?!?/span>
我們需要分開來理解這句話:
? ? ? ?①什么是數據資產?
? ? ? ?②數據資產的相關利益方是誰?
? ? ? ③協調與規范什么?
先說一說什么是數據資產。我們說不是所有數據都是數據資產,那到底什么才是數據資產呢?
? ? ? 《企業會計準則-基本準則》第20條規定:“資產是指企業過去的交易或者事項形成的、由企業擁有或者控制的、預期會給企業帶來經濟利益的資源?!?如果照貓畫虎修改一下,不難獲得一個關于數據資產的定義:“數據資產是指企業過去的交易或者事項形成的,由企業擁有或者控制的,預期會給企業帶來經濟利益的數據資源?!庇纱丝梢?,數據要成為數據資產,至少要滿足3個核心必要條件:
? ? ? ?①數據資產應該是企業的交易或者事項形成的;
? ? ? ?②企業擁有或者控制;
? ? ? ③預期會給企業帶來經濟利益。
數據資產的利益相關方是誰?
? ? ? 根據數據資產的定義,數據資產的利益相關方,包括:
? ? ? ①數據的生產者,即通過業務交易或事項產生數據的人或組織。
? ? ? ②數據的擁有或控制者,生產數據的人不一定是擁有數據,就像我們天天上網的各種數據都不歸我們自己所有,而是落在了各個互聯網公司的數據庫中。
? ? ?③數據價值和經濟利益的收益者。數據治理就是對數據生產者、擁有或控制者,數據價值獲益者的規范和協調。
都什么是需要協調和規范?
? ? ? 首先是數據的標準化,定義統一的數據標準,“寫中國字、說普通話”讓數據資產的相關利益方在同一個“頻道”溝通。數據的標準化包含幾個層面:①數據模型標準化。②核心數據實體的標準化(主數據的標準化)。③關鍵指標的標準化。關于數據標準化這里不再展開,有需要深入了解的朋友請參考筆者之前寫的文章:《數據治理系列3:數據標準管理》。
? ? ? 其次是數據的確權。數據一旦成為資產,就一定有擁有方,或者實際控制人,可以把他們統稱產權人。與實物不同的是,實物的產權是比較明確的,數據則比較復雜。產品在生產制造過程中,并沒有與消費者交易之前,制造商擁有完全產權。產品生產出來后,消費者通過購買支付相應的貨幣,便擁有了產品的產權。而數據的生產過程就不一樣了,我們的各種上網行為每天都會產生大量的數據,例如:網上購物、瀏覽網頁、使用地圖、評論/評價……。這些數據到底歸誰所有?控制權該如何治理?這是擺在面前的一個難題!我們看到近幾年一些不良商家,利用我們的上網數據,導致安全隱私泄密的事件也層出不窮。希望隨著技術和商業的進步,盡快能夠找到解決方案!
? ? ? 第三是流程的優化。數據治理的兩個目標:一個是提質量,一個是控安全?;ヂ摼W數據的確權目前已經是一個世界級難題,做好企業業務流程的優化可能會對隱私保護起到一定的作用。通過業務流程優化,規范數據從產生、處理、使用到銷毀的整個生命周期,使得數據在各階段、各流程環節安全可控,合規使用。另外,通過一定的流程優化,通過對相關流程進行監管,按照數據的質量規則進行數據校驗,符合“垃圾進、垃圾出”的數據采集、處理、存儲原則,提升數據治理,賦能業務應用。
二、數據治理到底在哪里治?
? ? ? ?關于數據中臺到底應該在中臺治理還是應該在后臺治理,這個話題在筆者所在的數據圈子中引起了激烈的討論。群里參與討論的都是業界的大咖,討論內容也十分精彩,我截了部分的截圖,先看看大咖們的觀點:
? ? ? ?數據治理到底應該放在中臺,還是后臺,我個人的理解是:小數據標準化治理靠人工、大數據預測性分析靠智能,將兩者結合起來:“人工+智能”形成了完整的數據治理技術體系。一個企業的數據治理既離不開小數據的標準化治理,也離不開大數據的預測性分析。
? ? ? ?這里的小數據,是在承載事物實體的數據,例如:人、財、物等,是企業所有業務開展的載體。其實說白了就是主數據管理。對于主數據的治理筆者認為是一個后臺行為,治理核心是“唯一數據源、統一數據標準”,而要達到這一目標是需要從數據的源頭抓起的,并且需要大量的人為干預,比如:數據標準的制定和落實,數據質量的清洗,數據的申請審批,數據的分發和共享等。從這里也能夠看出小數據的治理,追求的是標準化、精確化,應該是一個后臺行為。
而在大數據時代,得益于大數據技術的突破,大量的結構化、非結構化、異構化的數據能夠得到儲存、處理、計算和分析,這一方面提升了我們從海量數據中獲取知識和洞見的能力。對于大數據,傳統的一味追求精確的思維受到了挑戰。而對于大數據的治理,允許一定程度上的容錯,反而可以在宏觀層面擁有更好的知識和洞察力。對于大數據的治理更多的是采用AI技術,例如:知識圖譜、語音識別等,對大數據的采集、處理、使用過程加以控制,使其能夠合規使用。所以,大數據的治理放在中臺似乎更為合適。
三、數據治理到底應該怎么治?
? ? ? ? 數據到底怎么治,這確實是一個寬泛的話題,首先是要明確治理的內容。針對不同的治理內容采取不同的數據治理策略。關于小數據和大數據的治理側重點上文已經說明。以下為筆者在數據治理領域總結的數據治理十大關鍵實踐:
1、成立組織,育人才
? ? ? ? 數據治理的根本目標的是提升數據質量,控制數據安全和合規使用。數據治理涉及范圍廣,參與人員多,需要一定的組織和制度的保障才可能獲得成功。首先,依據行業經驗來看,不論是基于后臺的小數據治理,還是基于中臺的大數據治理,“一把手”工程是數據治理組織建設的最佳實踐。尤其是中臺數據治理更是上升至企業戰略層面,自下而上的治理幾乎不太可能成功。其次,數據治理組織的建立并是組建一個非臨時團隊,而是要能夠支撐企業數據化業務的一個完整體系,包括:組織體系、管理體系、執行體系、技術體系等。第三,數據治理組織的人員選拔和人才培養,不同企業應有不同的策略。一般來說,建立數據治理組織從企業內部進行選拔相應的技術專家、業務專家更為合適,要比從外部招聘更能夠快速上手。不過,對于傳統企業,其內部更偏管理,數據治理團隊建設更多需要借助外部力量。
2、需求調研,摸家底
? ? ? ? 與數據項目一樣,詳細需求調研是開展數據治理工作的第一階段的重要工作。本階段主要是理解企業的戰略,并按照從上而下的策略進行開展企業數據管理的現狀調研,摸清楚企業數據資產的分布、數據的質量、數據的管理現狀、數據應用需求等情況。該階段的工作目標是確定數據治理項目的目標和范圍,評估數據治理成熟度,確定改進內容和方向并與客戶達成共識。
3、梳理數據,建標準
? ? ? ? 按照業務主題進行數據資產的梳理,并制定數據資產的標準。首先,定義數據資產元模型標準,包括:數據資產的數據含義、業務規則、質量規則、數據來源、存儲路徑、管理部門、管理人等,即數據資產的元數據標準,定義好數據模型是數據治理成功落地的重要前提;其次,重點對企業的核心數據資產——主數據進行標準化,包括:主數據標準化定義、參照字典的標準化、數據清洗、數據服務共享等;第三,對業務指標的屬性的標準化,指標的屬性分為“業務屬性”和“技術屬性”兩類,業務屬性包含業務人員通常認識的指標分類、名稱、計算公式、展現方式和查詢權限等;技術屬性包含技術運維人員所關心的系統來源、取數字段、取數頻率、加工規則等,其核心也是元數據管理。
4、優化流程,定制度
? ? ? ? 對于企業而言,數據來源于很多方面,內部數據如財務、人力、供應鏈、生產、銷售等;外部數據如政治、經濟、社會、科技、行業、市場、競爭對手等。雖然數據來源廣、數據量大是優點,但如果不加以整理和關聯,雜亂無章的數據不僅不利于分析應用,還將帶來不必要的人財物的消耗。所以,非常有必要對數據產生、采集、處理、加工、使用等過程進行規范。通過統一數據標準,制定合理的數據管理流程和制度,規范數據生產供應的過程。
5、搭建平臺,接數據
? ? ? ? 數據治理平臺的搭建要根據不同的客戶需求搭建不同模塊,數據治理平臺主要涵蓋功能模塊有:元數據管理、主數據管理、數據質量管理、數據標準管理、數據安全管理、數據模型工具、ETL工具等。數據接入是將各種來源、各種類型的數據,通過數據集成工具將這些零散的數據整合在一起,納入統一的大數據平平臺或數據倉庫中,這一過程需要符合數據治理平臺定義各種數據標準、質量規則、安全指標。所以,我們說數據治理項目不是為了治理數據而建設的,而是配合大數據平臺、數據倉庫、數據分析挖掘等項目,通過提升數據質量、控制數據安全,讓數據發揮出最大的效益。
6、建立指標,提質量
? ? ? ? 提升數據質量是企業數據治理的重要目標,也是企業進行數據分析挖掘、業務管理和決策的重要基礎,只有建立完整的數據質量體系,才能有效提升企業數據整體質量,從而更好的為業務服務。從技術面上講,定義完整全面的數據質量的評估維度,包括完整性、時效性等,并按照已定義的維度,在系統建設的各個階段都應該根據標準進行數據質量檢測和規范,及時進行治理,避免事后的清洗工作。
7、優化模型,控安全
? ? ? ? 數據安全治理,始于數據資產梳理。通過對數據資產的梳理,可以確定敏感數據在系統內部的分布、確定敏感數據是如何被訪問的、確定當前的賬號和授權的狀況。根據企業的數據價值和特征,梳理出企業的核心數據資產,對其分級分類,通過數據治理工具進行建模,定義敏感數據位置、描述和處理方式,保證數據的合規合法使用。
8、開放服務,促應用
? ? ? ?數據的治理是為促進數據更好的應用,一切不以應用為目的數據治理都是耍流氓。通過數據資產目錄、微服務等技術將數據進行開發共享,促進數據在企業中的應用,使得數據作為企業的寶貴資產應用于業務、管理和戰略決策中,發揮數據資產價值。
9、賦能業務,抓創新
? ? ? ?數據賦能是在管理和業務應用中發揮數據更大的價值,以數據驅動業務的落地。數據賦能核心是,①匯聚數據:完善企業內部信息數據化,采集外部數據;②治理數據:整合數據,清洗、轉換、分析、服務;③應用數據:以數據為驅動將洞察結果應用到實際業務中去,推動企業業務和管理的創新。
10、持續優化,再出發
? ? ? ?筆者認為企業的數據治理是一個螺旋上升模型,需要不斷的迭代和優化。數據治理不能一蹴而就,需要建立起長效的持續運營機制,要將數據治理變成企業的一種機制、一種文化、一種習慣,而數據治理每一次迭代優化都預示著企業數據戰略目標的再出發!