如何高效智能識別主數據,這個方案兩步就能輕松搞定!

美林數據技術股份有限公司
關注
2023-06-28 13:58
1234次閱讀

什么是主數據?
主數據(Master Data)是指滿足跨部門業務協同需要的、反映核心業務實體狀態屬性的企業(組織機構)基礎信息。主數據有兩個價值,價值一是建立企業基礎數據共享“語言”,打破各系統信息交互壁壘,使數據能夠在多個系統內充分共享、高度復用;價值二是通過制定主數據標準,為業務報表編制、數據統計分析提供基礎條件;通過主數據建設,能為企業在數據應用與管理奠定基礎。
主數據是數據之源,也被稱為企業的“黃金數據”,是數據資產管理的核心、信息系統互聯互通的基石、更是信息化和數字化的重要基礎。主數據管理重要性體現在它可以消除數據冗余、提升數據處理效率、提高公司戰略協同力。通過構建準確、唯一、權威的數據來源,建立企業主數據標準管理體系,是提高企事業單位數據質量和數據資產價值的關鍵因素。
而主數據管理的第一步,就是對主數據進行識別。一般來說,主數據具有高價值性、實體獨立性、相對穩定性、高共享性、識別唯一性、長期有效性的特征,常見識別方法是深入調研企業的業務狀況和信息現狀,但這類方法帶來的問題也顯而易見:
?門檻高:依賴咨詢顧問和外部專家;
?見效慢:時間周期長,至少一個月起步;
?成本高:需要咨詢顧問、業務人員、IT人員共同完成人工咨詢;
?滯后性:業務出現問題后才會被識別出來。
面對這些挑戰,企業該如何破局?
解決思路
明確了問題,就可以制定針對性的解決思路,想要高效識別出主數據,所采用的方案需要具備以下幾個要求:
?要大幅度縮短項目實施周期和成本;
?要能通過技術或者工具的支持,快速識別企業各業務系統中主數據分布的現狀;
?要能夠為企業業務和信息現狀調研提供方向,實現看得見的價值。
想要實現這些要求其實也不難,通過構建機器學習模型,訓練相應的數據進行主數據管理,就能夠完美解決主數據識別的問題,快速了解企業的數據情況,為后續的主數據管理提供數據基礎。但是這個過程涉及到數據抽取、處理、特征工程、建模等多個環節,對企業而言是個不小的挑戰,有沒有更快、更智能的辦法?
Tempo主數據管理平臺了解下!
解決方案
Tempo主數據管理平臺是一個以業務驅動、智能輔助的企業級主數據管理平臺,將主數據的實施方法論融入到產品能力中,滿足不同業務角度的主數據管理需求,能夠解決企業以傳統模式治理數據帶來的成本高見效慢的問題,打破單一的主數據管理思路,以最小的成本實現最大的價值。

△主數據識別算法方案框架圖
Tempo主數據管理平臺的主數據識別算法方案從兩方面入手,先從企業各業務系統進行信息提取,再根據內置的算法進行機器模型的構建,最終實現對主數據的自動化識別。第一步:數據庫信息提取
主要圍繞表、字段和字段值3個基本元素,并從表信息和字段/值信息兩個維度對數據庫基本情況信息進行梳理,梳理的數據能夠對數據庫有絕對高的解釋度,進而為后續相關識別算法構建提供數據支撐。
同時,由于不同數據庫的數據類型存在較大的偏差,Tempo主數據管理平臺規定了統一數據類型標準,在字段特征提取過程中,分別對字段值的最大值、最小值和平均值都進行了提取,以便于進一步了解各字段值特征,增加準確度。
第二步:主數據表識別算法構建
主要以數據庫信息提取結果數據作為輸入數據,采用多種方式梳理及初步歸納主數據表的表征特征,融合綜合評價模型及機器學習算法等關鍵算法,從而實現主數據表識別。
算法實現過程
Step1:數據輸入
主要來源為數據庫信息提取結果數據。
Step2:數據處理
數據處理過程主要是針對抽取到的數據庫特征數據,通過篩選、合并、計算、異常值、缺失值處理等方式。
Step3:特征工程
針對不同的任務梳理出與目標結果相關的關鍵指標,這些指標的構建及確定將從業務、統計學等角度進行確定和選擇。
Step4:綜合評價/機器學習模型
基于當前數據情況,綜合應用綜合評價和機器學習模型實現主數據模型構建。
Step5:結果輸出
將主數據識別結果分高、中、低三個等級,從而實現主數據表的推薦。
在此過程中,表數據特征是描述表主體信息的關鍵,Tempo主數據管理平臺不僅可以識別到14種表字段值的特征,還基于Bert模型,實現了對事件、組織類特征表達、描述方式等其他多樣性特征的識別。
方案價值
該方案在某煤礦項目上得到了應用,并通過分層+隨機抽樣的驗證,以及人工標記+核查的復核方式,對主數據及參考數據的精準度和查全率進行了檢驗:
主數據精準度:65.1% ;查全率:100%
參考數據精準度:61.2%;查全率:100%
Tempo主數據管理平臺的主數據識別算法還可以運用到以下場景:
1)建立企業級的主數據統一視圖,識別各業務系統主數據,形成統一的數據信息,明確企業各主數據間的關聯性;
2)協助企業制定統一的主數據標準和規范的管理制度與流程,從而保障主數據的產生與存儲的準確性,數據的流轉與維護的可控性,幫助企業建立一套完善、權威且高質量的主數據;
3)通過主數據的更新變化趨勢等因素進行分析,可以一定程度上促進管理體系的不斷完善和業務發展不斷提升。
通過Tempo主數據管理平臺進行主數據識別,可以幫助企業和組織更好地管理和維護主數據,提高數據質量和可靠性,同時也可以更快地進行數據分析和決策,從而提高業務效率和公司整體的戰略協同力,為后續的數據共享和跨系統業務協同打好數據基礎,保障企業數字化轉型的順利進行。

美林數據技術股份有限公司
+
關注
0