云智慧幫助國網電商打造智能運維分析服務平臺
客戶介紹
國網電子商務有限公司(國網金融科技集團)是國家電網有限公司的全資子公司,成立于2016年1月。在2018年7月,按照“兩塊牌子、一套人馬”運作,實行“一體兩翼”的管理模式。
國網電子商務有限公司聚焦電子商務、金融科技、數字經濟三大領域,搶抓電網與互聯網深度融合發展機遇,以新立足、以快制勝,全面建成“電e寶、國網商城、國網金融科技、國網新能源云、國網商旅云、跨境電商、綜合能源服務共享平臺、大數據征信平臺和國網雙創”九大平臺。
客戶痛點
1.各系統監控的指標和告警相對獨立,無法進行關聯分析;
2.系統調用關系不清晰,當系統發生故障很難定位是哪里出了問題;
3.無監控指標體系標準,缺乏指標分類分級,哪些指標異常表示系統故障不清楚;
4.缺少指標分析和自動檢測,缺少故障預判和預警功能;
5.故障和問題往往是由用戶或運營團隊發現,缺乏主動性;
6.缺少系統運行現狀的大屏展示,無法直觀了解IT資源和系統運行的狀態。
解決方案
方案以打造全局監控及智能運維平臺為基礎,滿足數據采集技術、大數據存儲技術、大規模數據離線計算分析、異常檢測技術、故障診斷和分析的需求,實踐平臺化思維,充分利用現有監控資源,實現復雜業務模型下的異常檢測、故障定位、決策分析支持,并構建一套完整的技術生態體系,提升整體的運維服務能力。
對系統應用架構設計的簡要說明如下:
1.數據源:Zabbix/綜合網管、網絡質量監控、透視寶APM、logstash/Elasticsearch、撥測工具(監控寶);
2.運維大數據采集層和數據傳輸層:與各類監控平臺對接,獲取生產環境資源數據、指標數據和告警數據,同步自行采集應用系統的相關運維數據;
3.運維大數據實時計算層:對采集的數據進行數據清洗、數據聚類、指標運算等操作,以保證數據滿足實際功能需求;
4.運維大數據存儲層:建設數據存儲層,將生產環境基礎資源數據、關鍵指標數據、告警數據放在存儲層(大數據數據湖和監控平臺數據湖)統一長期存儲;
5.服務層:集成各類告警、性能及IT運營數據,構建各類數據主題和定制化數據,并提供實時消費服務能力,同時具備開放的接口服務能力;
6.計算層:通過數據分析、數據建模、機器學習等人工智能技術,基于歷史運維大數據進行數據分析、模型訓練,最終實現對實時在線運維數據(數據實時運算庫)的關聯分析;
7.應用展現層:基于對運維大數據的智能分析,針對具體的主機、網絡設備、應用系統、業務場景和運維場景,形成運維人員視圖,并提供異常檢測、故障定位、決策支持以及分析預測等支持;結合實時分析告警和自動化化的運維操作,通過開發可視化的頁面或大屏的形式實時展現業務系統智能運維的關鍵指標,第一時間發現異常情況,輔助運維人員進行運維決策和自動化處理。
通過對客戶方運維體系的充分調研,形成專業運維指標數據庫,指標數據管理的目標是使組織能夠將指標數據作為數據資產進行統一管控,并提供指標使用原則、指標管理制度、指標應用流程,指導在指標全生命管理周期過程中各組織層級的活動準則。
價值
1.方案在行業客戶實踐-效果概覽,提供應用視角資源依賴關系,將指標、告警集中起來,打破運維筒倉;
2.方案在行業客戶實踐-應用系統健康概覽,從業務視角出發,實現了應用層→服務層→JVM層→主機層→網絡層的監控;
3.方案在行業客戶實踐-業務服務組件的整體運行狀態,對應用進行多維度指標采集,通過數據聚類,形成應用系統畫像;
4.方案在行業客戶實踐-應用各組件在JMV層指標的健康狀態,通過穿透式下鉆的分析方式可以快速鎖定影響應用性能的根源,快速鎖定問題;
5.儀表臺可以對比服務中實例的運行狀態,對業務系統以及其下層的支持服務提供清晰的性能可視視圖。