中亦安圖 :以 NebulaGraph 為底座的智能運維解決
中亦安圖 :以 NebulaGraph 為底座的智能運維解決方案
智能運維落地中遇到的挑戰(zhàn)
隨著 IT 基礎架構的標準化和自動化水平的提升,智能運維技術開始在越來越多企業(yè)落地。但相較于互聯(lián)網企業(yè),非互聯(lián)網行業(yè)的智能運維還處于初級階段,特別是金融行業(yè),由于系統(tǒng)組件關系、運維對象、運維部門組織架構等比較復雜,而且監(jiān)管要求高,運維人員更新與引進速度慢等綜合因素,導致智能運維在金融業(yè)的落地門檻較高。
目前,專門針對運維場景設計與優(yōu)化的機器學習算法已經逐漸成熟,智能運維落地的核心難點落在了如何對海量、多維、多模態(tài)的運維數(shù)據(jù)進行持續(xù)的數(shù)據(jù)治理與高效的數(shù)據(jù)分析。因此,能處理多維數(shù)據(jù)統(tǒng)一查詢視圖的運維數(shù)據(jù)基座成為眾多客戶與團隊的真實痛點需求。
數(shù)據(jù)中心運維圖譜(KGOPS)解決方案
為什么選擇圖(Graph)
在考慮多維運維數(shù)據(jù)的關聯(lián)需求或嘗試描述 IT 基礎架構時,我們發(fā)現(xiàn)圖是最符合業(yè)務直覺的表達方式。假想一下,故障發(fā)生時工程師腦海中最先浮現(xiàn)什么?就是負責系統(tǒng)的整體架構圖與組件依賴關系,再結合自身的運維知識進行故障根因定位。
因此,為了支持能夠靈活、快速地形成多維數(shù)據(jù)的查詢視圖,我們選擇了 NebulaGraph 的圖數(shù)據(jù)庫作為更具優(yōu)勢的存儲與計算核心。通過設計合理的圖譜結構,組織起已經自動采集的 CMDB 數(shù)據(jù)、性能監(jiān)控指標、應用日志數(shù)據(jù),甚至是基于微服務的 Trace 數(shù)據(jù),從而構建出真正能滿足智能運維的數(shù)據(jù)基座。
圖的優(yōu)勢:圖查詢與圖算法
我們知道,變更是引起故障的重要原因之一。每次變更開始時,管理員都需要考慮變更對象、影響面、觸發(fā)故障的隱患等一系列問題。部分問題可通過持續(xù)集成的管理去解決,另一部分問題則可通過對運維圖譜進行圖查詢解決。 在故障場景中,也可以使用圖查詢的場景,如多告警實體關聯(lián)查詢,我們可通過結果視圖尋找多個 IP 之間的關系,故障的根因就能浮出水面。
同時,使用圖算法能夠幫助企業(yè)進行運維數(shù)據(jù)分析和知識挖掘,從而釋放企業(yè)長時間積累的運維數(shù)據(jù)的真實價值。常用的圖算法包括:廣度優(yōu)先算法、深度優(yōu)先算法、所有節(jié)點對最短路徑、最小生成樹算法、隨機游走算法、中心性算法、緊密性中心性、社群發(fā)現(xiàn)算法等。
數(shù)據(jù)中心運維圖譜(KGOPS)架構總覽
上圖展示的就是 KGOPS 解決方案整體架構圖。它采用 NebulaGraph 作為圖數(shù)據(jù)存儲核心,通過結合動靜數(shù)據(jù),KGOPS 提供標準的 Schema 定義方案,用戶可以根據(jù)自身 IT 環(huán)境的具體情況,實際需求進行定制化修改。同時,我們在 Server 層封裝了大量圖計算、圖分析的模塊,可以組合提供用戶進行使用,并在用戶層提供統(tǒng)一的工作臺,用戶可以方便地進行交互查詢。
目前圖相關技術已成為業(yè)界數(shù)據(jù)分析的熱點和重點,諸多頭部企業(yè)已經擁有多年將圖應用于運維業(yè)務的經驗,我們的智能運維解決方案依托于圖數(shù)據(jù)庫 NebulaGraph 本身的圖計算能力與諸多頭部金融客戶的落地建設經驗,提供開箱即用的圖算法,幫助客戶在具體的場景中實現(xiàn)智能算法,輔助疏通運維管理的阻滯點,提升運維團隊整體效率。
使用場景
1. 數(shù)據(jù)流與訪問關系
不同的應用之間基于業(yè)務邏輯,呈現(xiàn)出各類應用的數(shù)據(jù)訪問關系,這些關系對應用的運行、重要性等都有重要的參考價值。配置管理數(shù)據(jù)庫( CMDB )能夠將數(shù)據(jù)流向關系與應用訪問關系以可視化方式呈現(xiàn)出來,便于管理人員進行數(shù)據(jù)分析。
涉及技術:路徑檢索類算法、圖譜自動布局算法、圖譜交互可視化引擎。
價值:可用于性能分析、故障分析、影響分析,為管理者提供應用性能監(jiān)控、數(shù)據(jù)鏈路支持。
2. 智能配置基線比對
基于應用系統(tǒng)的整體架構配置基線比對。包括對應用、中間件、數(shù)據(jù)庫、服務器等進行配置比對。
價值:直觀展示配置和架構上的差異,為災備切換、應用發(fā)布等復雜場景提供可行性分析的數(shù)據(jù)支撐。
3. 單點隱患發(fā)現(xiàn)
應用系統(tǒng)的運行架構中,可自動發(fā)現(xiàn)單點運行的環(huán)節(jié)。
涉及技術:圖視圖切換、自定義圖查詢
價值:快速識別影響應用系統(tǒng)可用性的風險點
4. 重要程度分級
利用應用的類型信息、關系信息,分析應用的重要程度與影響范圍,確定應用重要級別。
涉及技術:自定義圖查詢、節(jié)點影響力算法
價值:對應用系統(tǒng)的定級提供數(shù)據(jù)支持,便于管理者對應用系統(tǒng)進行更加精細化管理
5. 風險分攤模型
按應用的重要程度設置風險權重,并根據(jù)運行架構,將風險值向下分攤,到物理層時,能夠自動計算不同物理節(jié)點的風險權重值。
涉及技術:節(jié)點影響力算法、圖傳播算法
價值:能夠幫助管理人員識別出有風險匯聚的資源點,并且準確識別風險級別
合作案例
某大型股份制銀行在項目初期面臨的問題有:部分數(shù)據(jù)關聯(lián)缺失/過多關聯(lián)直接無法顯示/無場景應用指導 / 多數(shù)偏向于自主查詢。
中亦的團隊通過融合該銀行的 CMDB 與其他可獲得的監(jiān)控性能數(shù)據(jù),配置變更數(shù)據(jù)、告警數(shù)據(jù),采用科學合理的圖譜設計方法,構建出統(tǒng)一、全面、可擴展性強,符合該銀行自身業(yè)務特點的運維知識圖譜。解決的具體場景有:
- 多節(jié)點關聯(lián)分析
通過輸入多個節(jié)點,實時多維度分析節(jié)點關聯(lián),幫助運維工程師洞悉隱藏于海量監(jiān)控數(shù)據(jù)之中的故障機器之間各維度的顯隱性關聯(lián)關系,進而對下一步的排障工作提供指導。
- 告警事件全景透視
通過輸入告警信息,穿透顯示一定范圍內的告警鏈路與機器拓撲,及其配置變更等信息,幫助運維工程師迅速了解全局情況,判斷告警影響范圍,確定關鍵影響節(jié)點,輔助生成排障方案。
- 配置變更影響分析
通過輸入配置變更工單號,實時穿透歷史變更情況與關聯(lián)機器變更情況,幫助運維工程師分析變更配置的潛在風險。
項目收益:
-
構建并完善了全景應用運維圖譜,不僅可以支持更復雜的運維管理場景變更影響面分析,并可以對外提供數(shù)據(jù)查詢服務,大幅降低運維管理及外圍系統(tǒng)查詢對接成本。
-
將告警粒度從應用監(jiān)控指標層穿透到資源指標層,明顯提升了故障定位的精度。
-
將小時級排障縮短至分鐘級排障,大幅提升了故障定位的時效性。
總結
智能化運維對于不同的角色帶來的收益是不同的。 對于管理層,智能化運維可實現(xiàn)資產數(shù)據(jù)化和可視化,實現(xiàn)管理數(shù)字化,同時提升企業(yè)信息安全。
對于運維部門,智能化運維可實現(xiàn)企業(yè)動態(tài)應用拓撲圖、智能基線比對、智能變更審核,同時支持基于 AIOps(人工智能 IT 運營) 的各種提升。
對于業(yè)務團隊,智能化運維可實現(xiàn)部門資產可視化、成本數(shù)字化、運維數(shù)據(jù)采集加業(yè)務數(shù)據(jù),實現(xiàn)全面提升運營、營銷和反欺詐效果。
目前,智能運維解決方案已在金融行業(yè)進入落地階段。歡迎相關行業(yè)伙伴前來交流,我們也希望為企業(yè)數(shù)據(jù)中心運維數(shù)字化轉型提供更多支持。


