美國(guó)勞動(dòng)節(jié)(9月第一個(gè)星期一)周末,亞馬遜網(wǎng)絡(luò)服務(wù)中心的一個(gè)數(shù)據(jù)中心發(fā)生斷電,導(dǎo)致部分客戶數(shù)據(jù)丟失。
消息源來(lái)自IT外媒The Register,據(jù)其獲悉,電源停掉、備用發(fā)電機(jī)隨后又出現(xiàn)故障時(shí),一些虛擬服務(wù)器實(shí)例如同人間蒸發(fā),一些云托管的卷被破壞,不得不盡可能靠備份來(lái)恢復(fù)。
據(jù)一位注冊(cè)讀者透露,周六上午,亞馬遜的云業(yè)務(wù)開(kāi)始在其us - east -1地區(qū)遭遇崩潰。
這位讀者稱,他們?cè)贏WS的云托管彈性塊存儲(chǔ)(EBS)中有超過(guò)1TB的數(shù)據(jù),這些數(shù)據(jù)在故障期間銷聲匿跡:他們被告知“與您的EBS卷有關(guān)的底層硬件已出現(xiàn)故障,與該卷有關(guān)的數(shù)據(jù)恢復(fù)不了。”
該讀者稱,靠大約8小時(shí)之前創(chuàng)建的EBS快照手動(dòng)恢復(fù)的數(shù)據(jù)。若沒(méi)有這個(gè)備份,他們可能無(wú)法恢復(fù)任何丟失的信息:亞馬遜的工程師能夠使絕大多數(shù)宕機(jī)的系統(tǒng)起死回生,不過(guò)并非每個(gè)存儲(chǔ)卷都在硬件崩潰后幸免于難。
AWS的工作人員告訴數(shù)據(jù)存儲(chǔ)在宕機(jī)存儲(chǔ)系統(tǒng)上的不走運(yùn)的客戶,盡管試圖恢復(fù)丟失的數(shù)據(jù),但是部分?jǐn)?shù)據(jù)已被永久打亂:“少數(shù)卷托管在受停電不利影響的硬件上。然而,由于停電事件造成的損害,支撐這些卷的EBS服務(wù)器沒(méi)有恢復(fù)過(guò)來(lái)。”
“在進(jìn)一步嘗試恢復(fù)這些卷之后,它們被查明無(wú)法恢復(fù)?!?
與此同時(shí),一名客戶兼技術(shù)顧問(wèn)Andy Hunt不僅在Twitter上吐槽他們的數(shù)據(jù)在停電時(shí)丟失殆盡,還聲稱AWS沒(méi)有迅速向用戶告知故障的根源:“AWS遇到了電源故障,它的備用發(fā)電機(jī)出了故障,結(jié)果EBS服務(wù)器因此崩潰,因此我們的所有數(shù)據(jù)一并遭殃。然后AWS花了四天的時(shí)間才查清楚這起事件,并告訴我們?cè)斍??!?
“提醒:云只是位于Reston的一臺(tái)計(jì)算機(jī),電源供應(yīng)很糟糕?!?
“受損”
雖然AWS的狀態(tài)頁(yè)面上公布了一些停機(jī)時(shí)間的細(xì)節(jié),但El Reg看到了一系列更詳細(xì)的通知,這些通知向客戶解釋了這個(gè)錯(cuò)誤。
就在 11:00 PDT之前,AWS指出,“在US-East-1地區(qū)的六個(gè)可用區(qū)域之一的十個(gè)數(shù)據(jù)中心中,有一個(gè)出現(xiàn)了公用電力故障。備用發(fā)電機(jī)立即啟動(dòng),但由于我們?nèi)栽谡{(diào)查的原因,在 06:00 PDT左右開(kāi)始迅速失靈?!?
“這導(dǎo)致該可用性區(qū)域中7.5%的實(shí)例在 06:10 PDT之前失敗,”報(bào)告繼續(xù)說(shuō)道?!霸谶^(guò)去幾個(gè)小時(shí)內(nèi),我們已經(jīng)恢復(fù)了大多數(shù)實(shí)例,但在可用性區(qū)域內(nèi)仍有1.5%的實(shí)例有待恢復(fù)。EBS也存在類似的影響,我們將繼續(xù)恢復(fù)EBS中的卷。在該區(qū)域啟動(dòng)新實(shí)例將繼續(xù)正常工作?!?
大約幾小時(shí)后,在太平洋標(biāo)準(zhǔn)時(shí)間13:30分,AWS澄清并擴(kuò)展了它的說(shuō)明如下:
在 04:33 PDT,位于US-East-1地區(qū)六個(gè)可用區(qū)域之一的十個(gè)數(shù)據(jù)中心之一出現(xiàn)了公用電力故障。我們的備用發(fā)電機(jī)立即啟動(dòng),但在06:00 PDT左右開(kāi)始失靈。這影響了可用性區(qū)域中7.5%的EC2實(shí)例和EBS卷。
在PDT為 07:45 時(shí),受影響的數(shù)據(jù)中心已完全恢復(fù)供電。到 10:45 PDT時(shí),除1%以外的所有實(shí)例都恢復(fù)了,到 12:30 PDT時(shí),只有0.5%的實(shí)例仍然受損。自影響開(kāi)始以來(lái),我們一直在努力恢復(fù)剩余的實(shí)例和卷。少量剩余的實(shí)例和卷托管在硬件上,這些硬件受到斷電的不利影響。我們將繼續(xù)努力恢復(fù)所有受影響的實(shí)例和卷,并將通過(guò)個(gè)人健康儀表板與其余受影響的客戶進(jìn)行通信。為了立即恢復(fù),我們建議盡可能替換任何剩余的受影響的實(shí)例和卷。
因此,根據(jù)Amazon的說(shuō)法,實(shí)際上,在美國(guó)西海岸時(shí)間周六凌晨,AWS數(shù)據(jù)中心斷電,一個(gè)半小時(shí)后,備份生成器發(fā)生故障,在可用性區(qū)域內(nèi),每10臺(tái)EC2虛擬機(jī)和EBS卷中只有1臺(tái)宕機(jī)。
幾個(gè)小時(shí)后,99.5%的受影響系統(tǒng)已經(jīng)恢復(fù),而在那些仍然“受損”的系統(tǒng)中,有些是不可恢復(fù)的,這迫使訂閱者取出備份——假設(shè)他們保留了備份。