微軟云服務(wù)宕機(jī)超24小時 企業(yè)關(guān)鍵業(yè)務(wù)如何避免被“拖累”

提起“宕機(jī)”這個詞,估計大多數(shù)企業(yè)管理層,技術(shù)人員都不會陌生。8月,微軟的公有云服務(wù)以及Office365等軟件,因?yàn)榘拇罄麃喌臉O端天氣,備用方案未能及時響應(yīng),導(dǎo)致澳洲用戶出現(xiàn)了超過24小時的云服務(wù)“暫停”。
互聯(lián)網(wǎng)時代對系統(tǒng)的可靠性提出了更高的要求。在未來,系統(tǒng)架構(gòu)越來越復(fù)雜,整體數(shù)據(jù)和流量也會越來越大,關(guān)鍵系統(tǒng)往往要求每年的不可用時間不能超過53分鐘,而很多事故都遠(yuǎn)遠(yuǎn)超過了故障預(yù)算。
宕機(jī)事件雖是偶發(fā),但對于建立在底層數(shù)據(jù)流轉(zhuǎn)帶動業(yè)務(wù)運(yùn)行,甚至企業(yè)運(yùn)行的現(xiàn)代企業(yè),出現(xiàn)一次事故的成本,愈來愈無法承受。
國際知名的項(xiàng)目管理軟件巨頭Atlassian,雖然擁有十多年SaaS服務(wù)的運(yùn)維經(jīng)驗(yàn),6年SRE經(jīng)驗(yàn),以及云上業(yè)界標(biāo)準(zhǔn)常見的災(zāi)備和恢復(fù)計劃,仍然在2022年4月出現(xiàn)了影響超700家企業(yè)用戶的宕機(jī)和無法訪問事故,不但沒法做到事前發(fā)現(xiàn)、及時阻止,甚至無法在承諾服務(wù)的8.76小時內(nèi)復(fù)原,更有不少企業(yè)遲遲等到14天后,才能打開自己的敏捷項(xiàng)目數(shù)據(jù)。
作為公有云用戶,為避免使用的公有云服務(wù)影響企業(yè)業(yè)務(wù)正常運(yùn)行,可以考慮增加一些措施,例如:多區(qū)域部署、備份和災(zāi)難恢復(fù)計劃、自動化監(jiān)控和警報、彈性架構(gòu)、數(shù)據(jù)冗余、容錯測試等,在不同的區(qū)域或數(shù)據(jù)中心中復(fù)制關(guān)鍵數(shù)據(jù),這可以確保即使一個數(shù)據(jù)中心發(fā)生故障,仍然可以訪問備份數(shù)據(jù),降低由于公有云宕機(jī)給企業(yè)帶來的損失,確保業(yè)務(wù)能夠在不可避免的故障發(fā)生時繼續(xù)運(yùn)行。也有一種觀點(diǎn)是采用私有云部署,擁有更大的控制權(quán),提高物理安全性,實(shí)現(xiàn)定制化和性能優(yōu)化,并且減少共享資源,當(dāng)然私有云部署在成本投入、可伸縮性限制和維護(hù)更新上也有一些更高要求。
常見的方法是采用混合云策略,結(jié)合公有云和私有云,以在不同的需求情況下獲得最佳的性能、可用性和成本效益。這樣可以在降低宕機(jī)風(fēng)險的同時,靈活滿足不同業(yè)務(wù)需求。
國內(nèi)主流的項(xiàng)目管理軟件UniPro,其支持公有云、私有云以及混合云部署,能最大程度滿足客戶的行業(yè)特殊性需求,此外還可根據(jù)數(shù)據(jù)權(quán)限等敏感信息,在企業(yè)內(nèi)設(shè)置分組等,最大程度上減少宕機(jī)帶來的損失。

[免責(zé)聲明]
原文標(biāo)題: 微軟云服務(wù)宕機(jī)超24小時 企業(yè)關(guān)鍵業(yè)務(wù)如何避免被“拖累”
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評;未經(jīng)許可,禁止轉(zhuǎn)載。




