微軟云服務宕機超24小時 企業關鍵業務如何避免被“拖累”

提起“宕機”這個詞,估計大多數企業管理層,技術人員都不會陌生。8月,微軟的公有云服務以及Office365等軟件,因為澳大利亞的極端天氣,備用方案未能及時響應,導致澳洲用戶出現了超過24小時的云服務“暫停”。
互聯網時代對系統的可靠性提出了更高的要求。在未來,系統架構越來越復雜,整體數據和流量也會越來越大,關鍵系統往往要求每年的不可用時間不能超過53分鐘,而很多事故都遠遠超過了故障預算。
宕機事件雖是偶發,但對于建立在底層數據流轉帶動業務運行,甚至企業運行的現代企業,出現一次事故的成本,愈來愈無法承受。
國際知名的項目管理軟件巨頭Atlassian,雖然擁有十多年SaaS服務的運維經驗,6年SRE經驗,以及云上業界標準常見的災備和恢復計劃,仍然在2022年4月出現了影響超700家企業用戶的宕機和無法訪問事故,不但沒法做到事前發現、及時阻止,甚至無法在承諾服務的8.76小時內復原,更有不少企業遲遲等到14天后,才能打開自己的敏捷項目數據。
作為公有云用戶,為避免使用的公有云服務影響企業業務正常運行,可以考慮增加一些措施,例如:多區域部署、備份和災難恢復計劃、自動化監控和警報、彈性架構、數據冗余、容錯測試等,在不同的區域或數據中心中復制關鍵數據,這可以確保即使一個數據中心發生故障,仍然可以訪問備份數據,降低由于公有云宕機給企業帶來的損失,確保業務能夠在不可避免的故障發生時繼續運行。也有一種觀點是采用私有云部署,擁有更大的控制權,提高物理安全性,實現定制化和性能優化,并且減少共享資源,當然私有云部署在成本投入、可伸縮性限制和維護更新上也有一些更高要求。
常見的方法是采用混合云策略,結合公有云和私有云,以在不同的需求情況下獲得最佳的性能、可用性和成本效益。這樣可以在降低宕機風險的同時,靈活滿足不同業務需求。
國內主流的項目管理軟件UniPro,其支持公有云、私有云以及混合云部署,能最大程度滿足客戶的行業特殊性需求,此外還可根據數據權限等敏感信息,在企業內設置分組等,最大程度上減少宕機帶來的損失。

