本文梳理了國內外8家云巨頭公司共17次故障事件,從中可以窺得云服務在發展過程中故障主要發生的階段以及不同階段故障發生的頻次、原因等,結合云服務產生背景以及優勢,指出云服務即使在發展的過程中會發生故障宕機事件,但是隨著該服務的不斷完善進步,有望進入更好的下一發展階段。
一、華為云事件概覽
6月13日,一條“同花順崩了”的消息登上微博熱搜。部分客戶反映同花順出現了無法進入頁面交易、界面卡頓等情況。據悉,此次故障是由于為其提供相關服務的華為云產生了故障導致,從而引發了市場對于云計算服務的擔憂。
基于此,華為云官方微博當日發布通知表示:2022年6月13日10:45-11:19,華為云檢測發現華為云華南-廣州區域公網訪問異常,目前故障已排除、服務已恢復,問題根因正在進一步定位中。同時了解到華為云內部已經成立專項組分析故障原因。據了解,華為云在2020年4月10月也曾經因部分主機異常發生一次較大范圍的故障,故障修復時間大約為2小時左右,具體原因未公開披露。
盡管故障具體原因尚不清楚,但是結合之前幾年其他云服務提供商相繼出現的數十次故障分析來看,故障的產生既有技術因素也可能受自然因素影響。本文梳理了國內外的故障發生情況借以引起對相關云服務的關注思考。
二、云服務發展迅速
(一)云服務產生原因
隨著互聯網不斷發展,網絡用戶激增,對于網絡服務的需求逐漸多元化。為了支持傳統應用應對以上情況,企業對于硬件設備和相關數據庫等軟件的需求大幅增加,相對應的,使用者也需要組建運營維護技術團隊來安裝、配置、運行、升級這些設備和軟件以維持相關應用的正常安全服務。最終導致的結果是企業的運營費用增加,為此需要支付巨大的開銷成本;同時,企業費力費錢運營所提供的服務且仍不能滿足用戶日益增長的需求。由此云服務應運產生。
云服務是基于互聯網的相關服務的增加、使用和交互模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。云計算是繼1980年代大型計算機到客戶端-服務器的大轉變之后的又一種巨變。
(二) 云服務供應商逐年增加
自云服務提出以來,國內國外云服務商逐年增加。國外主要云服務商包括全球最全面、應用最廣泛的云平臺——亞馬遜AWS云服務;微軟基于云計算的操作系統——Azure;谷歌云服務器Google Cloud等。
近年來,我國云服務也快速發展。根據中國信息通信研究院的云計算發展調查報告顯示,在技術進步及利好政策的驅動下,越來越多企業實體在云端部署數字系統及增值技術服務。中國的云服務科技解決方案的支出總額由2016年的人民幣893億元增至2020年的人民幣3220億元,復合年增長率為37.8%。在眾多云服務商中,阿里云、騰訊云、京東云、華為云、百度智能云占據頭部位置,市場份額占比較大。
作為本次事件的主角——華為云近年來發展勢頭也較好。根據市場調研機構Gartner發布的數據顯示,華為云2021年市場位居全球第五。前四名分別是亞馬遜、微軟、阿里巴巴、谷歌。
三、云服務故障分析
(一)國內云服務故障事件概覽
據零壹智庫不完全統計,自2010年以來,作為第一家混合云上市公司——青云QingCloud發生過約4次故障宕機事件,全球領先的云計算及人工智能科技公司——阿里云發生過約5次故障宕機事件,騰訊旗下的云計算品牌——騰訊云發生過約8次故障宕機事件。
對于國內云發生的諸多故障事件中,青云在2015年發生的多次故障值得一提,從中可以得出云服務故障相關規律。據了解,2015年6月6日,青云廣東1區全部硬件設備意外關機重啟,故障發生時段為13:48至16:30。2015年7月22日,青云大量北京2區(PEK2)用戶網絡中斷,故障持續時間由12:47至15:15,之后用戶業務才逐漸恢復。2015年7月23日,青云PEK 2再次出現網絡故障,故障發生時間分別為13:15至13:30以及13:50至18:50。后兩次故障都發生在北京2區,尤其是7月23日網絡在短暫恢復后再次故障,并持續長達5小時。這三次頻發的較大型故障均發生在青云上線后兩年。同時,青云在2017年也發生過一次持續時間超過4小時的故障,該事故同樣發生在2015年曾經發生過兩次故障的北京2區。
由此可以窺得,由于受到技術不夠成熟等原因,相關云服務商處于技術摸索完善階段。在云服務創立的前期,故障發生的概率較大。之前某些部件發生的故障可能再次發生。
研究其他云服務商發現,阿里云、騰訊云十年來所發生的故障多發生2018-2019年間,即盡管云服務已經進入技術較為成熟的階段,但仍有較大概率發生宕機事件。
綜上,可以得出結論:在云服務商提供云服務初期,故障發生的概率較大,此階段處于故障高發階段;在成熟期,故障發生的概率相對較小,但在此階段也有可能發生故障集聚。無論是技術處于哪一階段,故障發生并不是不可能事件,故障所發生的環節也有可能存在重復,故障的原因多樣,需要云服務商不斷自身檢驗以求完善。
下表主要列舉了近五年我國部分云服務發生故障的相關情況。
表 1 近五年來國內部分云服務故障統計情況


資料來源:公開資料、數據化講習所、零壹智庫
(二)國外云服務故障事件概覽
據零壹智庫不完全統計,自2010年以來,作為全球最全面、應用最廣泛的云平臺——亞馬遜云科技AWS,發生過約22次故障宕機事件;谷歌云計算——Google Cloud Platform發生過約12次故障宕機事件;微軟云計算——Azure發生過約8次故障宕機事件。
在國外云服務發生的諸多故障中,選取部分案例以分析故障修復時間的相關規律。據了解,2018年7月18日,亞馬遜核心產品AWS云服務出現了中斷,客戶使用帳戶登錄時遇到間歇性錯誤,無法訪問AWS管理控制臺。即使并未對亞馬遜的消費者業務產生任何有意義的影響,但該故障持續了將近6小時才修復完成。2019年7月2日,谷歌云計算東部一區出現網絡和負載均衡問題,原因是部分光纖受到了物理損壞所致。該故障導致部分服務近10小時無法訪問。2018年9 月 4 日,微軟在部分地區的數據中心的冷卻系統發生故障,數據中心的自動化措施強制關閉了系統電源,這一事故引發了 Azure 中斷,整個故障中斷時間超過 24 小時才恢復正常。在已知發生的云服務故障修復中,修復時間在短至40秒長至24小時不等。
綜上,可以得出結論:故障發生不僅與技術有關還受到自然因素等不可抗力影響。而故障修復時間主要受云服務供應商技術處理能力、自然天氣、故障原因等多重因素決定。
下表主要列舉了近五年國外部分云服務發生故障的相關情況。
表 2 近五年來國外部分云服務故障統計情況

資料來源:公開資料、數據化講習所、零壹智庫
(三)云服務未來發展前景良好
即使云服務在發展的過程中會由于諸多原因而發生故障宕機事件,但是云服務本身在產生的過程中已經具備了相對傳統服務降低故障發生概率的優勢。
根據CSDN顯示,傳統服務器硬件發生故障主要受到廠商品牌、機型、服務器運行時間、以及部件型號的故障率等諸多因素影響。而云服務遵循一對多的模型,與單獨的桌面程序部署相比,有比較專業的基礎運維團隊和內核團隊,可以通過內核隔離硬件故障、熱遷移規避故障隱患,以及監控故障率并主動下架不良廠商機型等方式降低服務器硬件發生故障的概率,不斷提升服務器硬件質量。
綜上,云服務相比傳統服務已經具備不可替代的優勢,故障的概率與傳統服務相比已呈現出大大降低的趨勢,隨著技術的不斷完善,云服務將在更多場景中發揮自己獨一無二的作用。
四、結語
通過此次華為云故障事件,可以看出云服務在為企業提供更好,更便宜和更可靠的應用過程中,也不可避免會發生不同程度的故障,故障原因多種多樣不僅與技術有關,故障發生后對于故障的修復也尤為重要。
云服務商應該更加重視數據中心基礎設施、硬件設備和傳輸網絡的可靠性和穩定性,對于不可預期的外部故障和事故,云服務商應汲取教訓,積累經驗,做好提前檢測和壓力測試,減少故障發生頻率,也盡力減少故障對客戶造成的損失。作為用戶的我們,也應該對云服務采取更加包容支持的態度。相信云服務在未來的發展過程中有望進入下一個發展階段,服務于更多用戶。
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...