定義現代化的數據分析最佳實踐(一)

數據蘊含的無限價值已經被大家所認可,數據和分析也是數字業務成功的關鍵。在Garnter的相關報告中也多次提到:未來企業應該向數據驅動型公司邁進,創建數據素養計劃目前是一個高度優先事項。但如何通過建設數據“基建”充分發揮價值企業卻還在不斷摸索中。數據和分析日益成為業務戰略的主要驅動力,完全融入企業的日常工作之中,數據驅動的業務戰略和信息產品也具備了前所未有的發展潛力。不少企業已經引入數據分析做為實現數據價值的關鍵,但我們發現許多企業在搭建數據分析應用時缺乏頂層視野,缺乏“數據思維”,主要問題有幾點:
- 沒有整體規劃,數據、系統的堆疊,上量后系統容易崩潰
- 數據分析跟不上業務變化、不同場景不同角色的個性化需求
- 如何讓數據分析與其他產品、工具協同工作
在《HENGSHI SENSE 4.0 發布,前所未有的敏捷分析管道》一文中,我們也曾提到過許多數據分析和數據平臺發展的關鍵趨勢。趨勢和問題并存,處理這些數據分析難題往往需要更系統的思路,才能搭建起商業分析成功路徑,享受由數據帶來的持久的價值。
本文內容部分源于《定義現代化的數據分析最佳實踐》白皮書,希望能對大家有所幫助。文末附上該白皮書完整版本獲取方式。
Analytics Blueprint
商業分析成功實踐藍圖
準確定義現代化的分析能力體系
敏捷性|Agile is the key
敏捷的定義
業務方或者分析人員能夠靈活的定義分析指標,并在分析探索過程中可以隨需應變的臨時新增、修改、刪除指標模型,修改的結果會直接影響到最后的儀表盤或者數據 API,而整個過程對數據層面完全“無感”。這里的完全無感的意思是,沒有任何中間實體表的生成,也沒有任何中間計算需要發生。
敏捷最終不僅體現在業務的效率上,更是體現在工作的本質上。只有這樣,才真正讓業務人員在“分析”數據。拖拽一個儀表盤不是分析,這是搭建可視化的看板,分析是細致的研究、迭代和決定什么數據的口徑能夠準確反映業務的關鍵狀況,并以此作為 KPI 進行追蹤。沒有敏捷,是無法真正進行分析的。
敏捷還體現在分析的起點盡量靠近原始數據、明細數據、業務數據,更大的原始粒度決定了分析的視角是足夠寬泛的,能夠容納足夠的變化度和探索空間。
缺失的后果
不夠敏捷首先是局限為 IT 或者數據團隊需要去準備數據,這里的溝通成本在于 IT 崗位和業務場景還是有不小的鴻溝;同時還特指數據的成本,包括了對業務預設場景的計算成本、中間生成的結果表的存儲成本、以及對這一系列過程的工作流管理管理成本、還有在發生變化時的定位、修改成本、最后還有在這一系列復雜過程中頻繁出錯的修復成本和數據經過層層計算最終反饋出變化的時間成本。
在一個業務快速變化、數據源也快速變化的動態場景下,以上所有成本都會同步大幅成長,在數據放量面前,所有的提前預設和準備都是失效的。
開放性|Embedded Friendly
開放性的定義
首先要明確,集成解決的是研發效率問題。嵌入集成友好是一個架構設計要求,不是一個功能層面要求,因此面向嵌入集成友好的設計在軟件研發的早期就要確定,在軟件自身功能的每一個抽象分層上,都有考慮到和外部系統的交互問題主要包括下面的幾點:
- Open API:需要嚴格的前后端分離設計,在功能層面能夠表現為一組完整 API 集合;
- 身份:有完備的用戶登陸認證適配機制,和與此配合的動態權限控制機制;
- 前端:有非常靈活的 iFrame 定制化能力、CSS 自定義能力、主題設計能力;
- 模塊化:主要功能都有良好封裝,松耦合設計,具備獨立的能力,能夠邊界清晰的被識別和調用;
- 對外能力服務化:能夠通過 API、iFrame 等各種方式明確對外形成服務機制,有完善的功能 API 創建、注冊和流控等管理機制;
- 彈性可擴展:在通過 API 支撐的方式成為一些應用的基礎設施后,能夠根據服務壓力進行彈性擴展,輕松無修改的通過增加部署節點或者容器實例來應對增加的服務壓力;
缺失的后果
按照傳統單機桌面軟件的設計路徑,單一的價值落地方式,不能靈活的通過修改配置自定義,無法對外暴露出各種 API 能力,模塊之間緊耦合相互調用,對外呈現不清晰、不透明的單一應用層功能,無法在性能受阻的情況下進行水平擴展。
建模語義層|Modeling and Metrics
建模語義層的定義
能夠在數據層面之上構建一個以指標計算邏輯為核心的管理層,用專有語法定義指標被數據的字段計算的公式,指標可以成為一個可被管理的邏輯概念被創建、修改和發布,基于這樣的中心化管理,實現從數據到分析的解耦分層,讓分析人員面對字段、維度和指標集合開展工作。
這個架構上的變化源動力來自于業務人員希望更快的從更大量和更加分散的數據集中獲得結果,而最大的阻礙則來自于如何從數據中構建模型關聯關系這個過程。構建一個建模語義層支撐的指標管理功能會讓這個構建過程可見可管理,面向業務,敏捷應對變化。
通過建模語義層的抽象,真正隨需而變的部分,就可以被靈活的配置和修改,封裝為一個個分析模板,讓接下來的應用場景能夠輕松的嵌入整合,實現了計算的后置,也真正降低了分析的門檻,讓業務人員能夠自助式完成對數據的探索。
缺失的后果
數據倉庫的實際運算和商業智能的分析邏輯混在一起,數據人員和業務人員強行綁定配合,指標分析邏輯固化且需要提前完成數據準備,沒有足夠強大的規則去表達和定義計算的邏輯,需要依靠 SQL 機制生成大量的中間數據表和存儲加工任務,業務人員無法真正介入分析過程。
中臺屬性|Middle Office
分析場景中的數據中臺定義
需要具備端到端的數據全生命周期管控機制。由于語義層的能力,分析得以從明細數據展開,因此分析的過程也需要從數據聚合階段開始,整個數據聚合、管理、建模、看板構建和發布復用的全流程都需要能夠一站式發生,并在每個階段進行清楚的落位管控。
需要具備一個邏輯數據湖倉的全局管理視圖。能夠在數據可達但是不搬動的情況下,實現對數據的全局瀏覽,屏蔽掉多源異構的底層環境。實現數據邏輯整合后的目錄整理和瀏覽,在緩存技術的幫助下,能夠進一步實現數據物理上的聚合整合(到數據湖)。
定義數據工作需要的各種專業角色,然后根據角色分工協同落地最佳實踐。設計好不同團隊在平臺中的工作流和配合邊界,能夠在產品中帶入實踐方法論,幫助用戶養成數據文化。
缺失的后果
缺乏全流程的支持和管控。需要大量整合各種開源或者商用工具,拼裝完整的工作流程,帶來大量的實施和對接成本。
無法應對或者只能以高成本來應對更嚴重的數據孤島環境。需要搭建重型的數據倉庫和大數據平臺方案,反復搬運數據,無法根據分析需求靈活的改變數據集成路徑。
缺乏協同的劃分,引起混亂。在工作流程中沒有工具層面的邊界劃分,需要依靠管理機制進行工作安排,帶來大量溝通和管理成本。
平臺適配性|Adaptive for Big Data
平臺適配性的定義
能夠對接各大數據存儲/計算平臺的查詢接口,進行高速的即時查詢,對接主流的數十種大數據分析引擎。
能夠將建模語義層的指標計算的公式語法按對接類型翻譯執行,下推到不同類型的數據平臺完成運算,并收集聚合統計初步結果,在平臺上完成最終聚合。
能夠根據各數據平臺的優勢,創建適配的語言函數發揮差異化優勢,比如 Elastic / Mongo 的原生語法深度支持。
缺失的后果
數據分析運算不能下推執行,數據需要加載到分析平臺完成所有運算,極大影響性能。
不能真正享受到大數據平臺蓬勃發展的技術紅利,不能利用每一種平臺針對某種場景的高性能計算和存儲優勢。
數據分析無法形成全流程的聯通管道,帶來分析的延時性,無法觸達實時分析領域。
構建現代化分析能力的最佳實踐路徑
大而全的數據平臺建設,常常因為希望一步到位的建設周期過長,又缺乏調焦校正的機制,在過程中失去對需求把握的準確度。
分析的需求還是來自業務端的經營管理需求爆發,構建的路徑從底層開始往往經過漫長的建設周期,難以預測業務變化。反之,先從業務端的一些典型場景需求開始構建,能夠以最快的速度得到分析效果的閉環驗證,呈現小步快跑的落地效果。
賦能業務 —— 敏捷的分析上線
先收集業務部門對剛需的分析場景,提煉出幾個最常用也最關鍵的應用,就能夠拆解出一批試點用戶、一套關鍵儀表盤和一組基礎指標需求,作為最初的落地場景。
在 IT 數據部門的管控配合下,對接原始數據表的數據庫位置,通過敏捷分析平臺即時搭建出敏捷加工的數據分析管道,能在快速呈現報表分析結果,并完成視覺優化和發布工作,由此開始培養大家看數據做決策的習慣動作。
組織業務部門進行數據研討,將數據的語言在組織內部做更多的發布傳播,形成大家對數據口徑的共識,通常也伴隨幾輪對指標更準確的優化或重新定義,最終形成一個效果不斷提升的數據分析亮點場景。
賦能 IT —— 讓數據準備和指標建模清晰可見
在一個業務部門的試點初步跑通后,管理效率或者管理 KPI 的可見性會得到凸顯,這勢必會讓更多的業務部門也提出自身需求,希望復制成功的數據化經驗,這時候才是 IT 部門大顯身手的時刻。
廣泛收集分析需求后,就能夠在兩個層面形成管理動作,一個原始的數據層,構建一個虛擬的數據集市,讓多源異構的問題暫時不用理會,先專心收集所有有價值的數據輸入源頭;同時構建一個指標層,把需求提煉為業務指標庫,進行統一的中心化管理,確保數據口徑定義、數據溯源都是能夠驗證和靈活修改的。
通過分析的指標需要,結合明細數據的物理分布當前現狀,構建數據關聯模型,創建虛擬的寬表視圖,形成關聯分析的基礎表,進行必要的數據加工,創建虛擬的新增定義字段。
最后在數據模型的基礎上,構建出需要的所有指標的計算邏輯公式,以及參數化的變量,完成分析前的準備工作。讓業務人員面對一個干凈、清晰、整潔的數據資產層,這時候就能夠安全可控的大規模推向多個業務部門,自助式的隨需而變的構建分析場景看板。
賦能產研 —— 讓數據類的應用開發簡單搭建
如果基于數據分析的基礎設施,已經完成了業務端的自助分析落地和數據層的清晰管控和指標中心化沉淀復用,最終則能夠將價值落地的范圍從業務人員擴展到所有系統。
形成數據資產的 API 管理集合,暴露給所有業務系統,在數據部門的管控下,進行注冊管理和直接調用,設置流控機制。
同時,將數據分析看板和各種應用成果,嵌入集成到業務系統中,在營銷、人力、運營等核心場景復用分析能力和成果,讓分析服務化,無處不在的整合進企業經營流程方方面面中。
最后,鼓勵產品研發團隊,基于已經形成的數據能力,更靈活高效的開發數據應用場景,或者包裝出更加有針對性的行業解決方案。
至此,數據分析真正成為驅動組織進化的生產力平臺,以一個增長引擎的定位,賦能組織內的每一個人、每一個應用。
小預告:在《定義現代化數據分析最佳實踐》系列(二)中,我們將拆解衡石在最佳實踐案例中的應用價值,想要提前了解相關內容的小伙伴,歡迎關注衡石科技公眾號,留言獲取白皮書完整版。
關于衡石科技
衡石科技專注于企業服務的數據領域,賦能行業客戶持續數據資產化,實現業務創新為目標,秉承“Analytics as a Service”的理念,構建數據時代的一站式分析云。
我們相信,在數據時代,所有業務都會成為數據業務。
衡石科技旗下核心產品“ HENGSHI SENSE ”,已為 70+ 國內外行業伙伴提供標準化、易整合、可擴展的數據分析云,通過數據能力延伸雙方的增長路徑。
- Powered by HENGSHI
