其實這已經(jīng)不是阿里云第一次出現(xiàn)問題和故障了,早在2018年6月28日,阿里云就因故障導(dǎo)致用戶在訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題。
之后阿里云方面稱:“故障從北京時間27日16:21左右開始,到16:50開始陸續(xù)恢復(fù)。故障起因是上線一個自動化運維新功能時,執(zhí)行了一項變更驗證操作,觸發(fā)了一個未知代碼bug,錯誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通。”
2018十大云計算廠商宕機(jī)事件回顧
其實近幾年云宕機(jī)事件發(fā)生也是很頻繁的,據(jù)眾視媒體獲悉,僅2018年一年,全球主流云計算廠商曾發(fā)生數(shù)十起宕機(jī)事故。
例如:2018年1月18日,谷歌云自動化機(jī)制失效,導(dǎo)致其us-central1和europe-west3 兩大可用區(qū)中的計算引擎停運93分鐘。谷歌對此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致Autoscaler(自動擴(kuò)展器)服務(wù)無法正常運行,該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無法與其他可用區(qū)虛擬機(jī)聯(lián)系。
2018年3月2日凌晨,依賴 AWS 服務(wù)的部分 Alexa 開始出現(xiàn)失聲問題,該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷,Alexa也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時內(nèi),Alexa 又接到了成千上萬封投訴。據(jù)了解,Alexa這一故障源于亞馬遜AWS的網(wǎng)絡(luò)服務(wù)出現(xiàn)問題,其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響,包括軟件開發(fā)公司 Atlassian,云通訊公司Twilio等。
2018年5月31日,因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障,AWS再次出現(xiàn)連接問題。在此事故中,AWS的核心EC2服務(wù),Workspaces虛擬桌面服務(wù)以及Redshift數(shù)據(jù)倉庫服務(wù)均受到影響。
2018年6月17日至18日,因愛爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問題,微軟Azure被高溫影響導(dǎo)致存儲和網(wǎng)絡(luò)中斷。
2018年7月20日,騰訊云云硬盤發(fā)生故障(騰訊云后期給出的事故原因說明),導(dǎo)致該公司存放的數(shù)據(jù)全部丟失,并且不能恢復(fù),這是該創(chuàng)業(yè)公司近千萬元級的平臺數(shù)據(jù),包括經(jīng)過長期推廣導(dǎo)流積累起來的精準(zhǔn)注冊用戶以及內(nèi)容數(shù)據(jù)。
2018年7月24日,用戶登錄騰訊云時反復(fù)出現(xiàn)超時、退出等情況,即便更換運營商,結(jié)果也一樣。隨后,騰訊云發(fā)布通知稱初步確定是運營商光纜中斷,運營商已經(jīng)找到斷點,正在連線中,主要受影響的為廣州區(qū)域部分用戶。
2018年9月4日上午,微軟Azure美國中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓,導(dǎo)致多個Azure服務(wù)出現(xiàn)連接問題,客戶難以訪問存儲在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。
2018年11月9日,谷歌公有云上提供的Kubernetes服務(wù)(GKE)節(jié)點池建置功能出現(xiàn)異常,維運人員無法透過Cloud Console UI建立新節(jié)點。
如何有效降低云宕機(jī)事件發(fā)生
云計算并不是天生就是不可靠的,但是如同所有的IT形式一樣,必須仔細(xì)挑選和管理云服務(wù)以實現(xiàn)特定的可靠性和可用性目標(biāo)。
而想要免受云宕機(jī)事件影響的第一步就是要評估云廠商數(shù)據(jù)中心的可靠性,因為大部分的云廠商都擁有著很少數(shù)量的數(shù)據(jù)中心,通常情況下只有一個,而這些數(shù)據(jù)中心易于產(chǎn)生與企業(yè)相同類型的故障。
其次,備份數(shù)據(jù)中心必須位于不同于主數(shù)據(jù)中心的另一區(qū)域,這樣它就不會受到相同問題的影響,同時它還必須擁有足夠的容量以處理云應(yīng)用的故障轉(zhuǎn)移。
最后,網(wǎng)絡(luò)性能問題或缺少也將導(dǎo)致云宕機(jī)事件得發(fā)生,云計算故障的最常見原因通常并不是云計算,而是網(wǎng)絡(luò)。大部分的云應(yīng)用都是通過互聯(lián)網(wǎng)進(jìn)行訪問的,而互聯(lián)網(wǎng)可用性則是大多數(shù)云宕機(jī)事件的罪魁禍?zhǔn)住?br />
阿里云的全球地位依然牢固
雖然此次的宕機(jī)事件或多或少會對阿里云的帶來一些負(fù)面影響,但是想要動搖阿里云在國內(nèi)的地位卻很難。目前在全球市場上,阿里云已擁有超過1500個節(jié)點,帶寬總量超過120T,服務(wù)超過30萬客戶。全國互聯(lián)網(wǎng)三分之一的流量由阿里云承擔(dān),近70%內(nèi)容通過阿里云完成加速調(diào)度,80%的國內(nèi)TOP直播網(wǎng)站/APP使用阿里云加速。在權(quán)威市場研究機(jī)構(gòu)Gartner公布的最新視頻云報告中,阿里云被評定為"全球級"。
而據(jù)最新的研究報告顯示,阿里云以42.5%的市場份額,成為中國視頻云市場第一大廠商,所占份額幾乎為二至五名總和,阿里云視頻云憑借絕對領(lǐng)先的市場份額和完整的產(chǎn)品線位居市場競爭力領(lǐng)導(dǎo)者的位置。
同時,在剛剛結(jié)束的MWC 2019上,阿里云發(fā)布了7款產(chǎn)品,涵蓋無服務(wù)器計算、高性能存儲、全球網(wǎng)絡(luò)、企業(yè)級數(shù)據(jù)庫、大數(shù)據(jù)計算等。
阿里云方面介紹,本次發(fā)布的產(chǎn)品包含:可實現(xiàn)每秒17億次計算能力的實時計算引擎Blink,EB級數(shù)據(jù)存儲能力的大數(shù)據(jù)計算引擎,業(yè)界首款企業(yè)級MariaDB云數(shù)據(jù)庫以及為國際企業(yè)定制的全球網(wǎng)絡(luò)連接解決方案。產(chǎn)品均已大規(guī)模應(yīng)用于阿里巴巴集團(tuán)內(nèi)部淘寶、天貓、菜鳥等核心業(yè)務(wù)場景。