sidekick的嚴重事故
SIDEKICK這次事故非常的嚴重,在2009年的那個冬天,微軟擁有的SIDEKICK服務(wù)中斷了一個星期,用戶不能訪問自己的郵箱,日歷還有其他個人數(shù)據(jù),更為嚴重的是這個錯誤持續(xù)了一個星期。微軟隨后承認這些數(shù)據(jù)無法恢復(fù),因為技術(shù)人員忘記了備份,隨著時間的發(fā)展,忘記備份這樣的低級錯誤應(yīng)該不會再發(fā)生,但這個教訓(xùn)是嚴重的,無論你是否使用的是云儲存,都需要備份自己的數(shù)據(jù)。就像AlertSite公司負責(zé)監(jiān)視產(chǎn)品的副總裁KenGodskind說的那樣,使用云的機構(gòu)不能僅僅假設(shè)因為它是在云中,業(yè)務(wù)持續(xù)性計劃的全部責(zé)任已經(jīng)交給了提供商。
Gmail的故障
Gmail這次的錯誤和每個人都息息相關(guān),有十五萬用戶在登陸自己的GMAIL賬號之后,看到的是一個空白頁,用戶們頓時暈眩了,谷歌修復(fù)這個故障的時候用了四天時間,谷歌負責(zé)工程的副總裁BenTreynor當(dāng)時在博客中稱,如果有你的數(shù)據(jù)的多個副本,怎么會發(fā)生這樣的事情?在很少出現(xiàn)的情況下,軟件瑕疵能夠影響幾份數(shù)據(jù)。那就是這里發(fā)生的事情。
值得慶幸的是谷歌改用物理磁帶備份以便恢復(fù)數(shù)據(jù)。最終,谷歌的多層數(shù)據(jù)保護確實發(fā)揮了作用,但是,仍有數(shù)千用戶在后來的幾天時間里無法訪問其電子郵件。AlertSite公司的KenGodskind稱,當(dāng)你查看廣泛的平均狀況時,云的運行成功率遠遠高于你個人的運行成功率。這只是當(dāng)你進入到Web規(guī)模時,故障的影響以更大的方式放大了。
Hotmail的故障
說完了谷歌,改論道Hotmail了,那是2010年年底,微軟的Hotmail出現(xiàn)了數(shù)據(jù)庫錯誤,這次事故導(dǎo)致數(shù)萬個郵箱賬戶被清空,微軟表示這是一個腳本錯誤造成的,他們?yōu)榱藙?chuàng)建一個刪除虛擬賬戶的腳本嗎,錯誤的刪除了一萬七千個真實賬戶。微軟花了三天時間恢復(fù)了絕大多數(shù)的數(shù)據(jù),但仍有將近8%的用戶無法訪問,最后完全恢復(fù),大約花了一周的時間。微軟有時候也會出很可笑的錯誤,這個解釋似乎不是很能令人信服,用戶當(dāng)然也不會得到任何賠償。。
Intuit兩次宕機
Intuit的事故更具有典型性,這次事故深刻的反應(yīng)了云計算服務(wù)器潛在的嚴重威脅,甚至是不可抗拒的。
Intuit去年遭遇一次嚴重故障。它的基于云連接的服務(wù),包括TurboTax、Quicken和QuickBooks等流行的平臺在一個月內(nèi)發(fā)生兩次斷網(wǎng)事故。最最糟糕的一次是去年6月的一次36小時斷網(wǎng)事故。一次電源故障顯然導(dǎo)致主要設(shè)備使用備用電源,該公司主要的和備份的系統(tǒng)完全斷網(wǎng)。
更糟糕的是,幾個星期之后,又發(fā)生了一次明顯的電源故障。此外,第二次中斷顯然引起了人們的大罵。
一個用戶當(dāng)時在微博中稱,25小時的斷網(wǎng)是很難忍受的。Intuit的被動的、不透明的和無法接受的溝通沒有幫助。
PayPal斷網(wǎng)故
2009年夏季PayPal的斷網(wǎng)故障是真的,讓全球數(shù)百萬臺機器無法銷售商品。這項服務(wù)在大約一個小時的時間里完全不可用,在后來的幾個小時里仍是斷斷續(xù)續(xù)的。PayPal稱,硬件故障是事故的原因。
毫無疑問,這種中斷故障是很少發(fā)生的。但是,這個不幸的斷網(wǎng)故障使PayPal輕松在云計算的恥辱堂上贏得一個位置。
?微軟商務(wù)辦公在線套件故障
當(dāng)你的基于云的辦公套件出現(xiàn)故障時,那是很難有辦公效率的。那是幾個星期前依賴微軟商務(wù)云服務(wù)的機構(gòu)發(fā)生的事情。微軟BPOS服務(wù)開始出現(xiàn)斷斷續(xù)續(xù)地工作的情況。一些用戶的電子郵件因此延遲了9個小時才收到。
兩天后,就在BPOS好像排除了故障的時候,延遲的現(xiàn)象又發(fā)生了,向外發(fā)出的信息也阻塞了。如果這個事故還不夠的話,微軟還經(jīng)歷了另一個故障,阻止用戶登錄基于Web的Outlook門戶網(wǎng)站。
微軟在線服務(wù)部門副總裁在博客中稱,我要因為這個故障引起的這些不便向你們、我們的客戶和合作伙伴表示道歉。
Salesforce服務(wù)中斷
一個小時的斷網(wǎng)故障聽起來也許不嚴重。但是,如果你的公司擁有數(shù)萬家企業(yè)客戶服務(wù)業(yè)務(wù)的關(guān)鍵,許多這樣的機構(gòu)肯定要把這60分鐘看作是生命期。
當(dāng)去年1月數(shù)據(jù)中心關(guān)閉的時候,Salesforce.com吸取了深刻的教訓(xùn)。在進入新的一年剛剛四天的時候,Salesforce.com報告了一次全面的故障,也就是說服務(wù)、備份等全套服務(wù)都中斷了。
柯尼卡美能達的子公司AllCovered的首席信息官TimCrawford稱,現(xiàn)實是基于云的數(shù)據(jù)中心也中斷了。那一直是故障的原因并且總是這種情況。我們對此必須現(xiàn)實一些。
Crawford稱,成功的云計算需要一個與傳統(tǒng)的服務(wù)器設(shè)置不同的思維方式。你要自己決定你的企業(yè)的數(shù)據(jù)是否能夠承受偶爾的斷網(wǎng)。如果不能承受,你要保證你的配置有避開斷網(wǎng)故障所需要的彈性。
當(dāng)你選擇一個云提供商的時候,你需要做家庭作業(yè)以理解他們?nèi)绾翁峁┻@些服務(wù),他們是否能夠建立比你自己做的還要好的冗余水平。如果答案是否定的,那么,你為什么要使用這些云提供商呢?
Rackspace宕機事故
Rackspace在在2009年全年遭遇了四次引人矚目的斷網(wǎng)故障,使該公司的客戶的斷網(wǎng)時間達到幾個小時。Rackspace不得不向用戶賠償了將近300萬美元的服務(wù)費。
Rackspace把這些事故稱作“痛苦的和非常令人失望的”并且承諾以后在很長時間里都要高水平地提供服務(wù)。目前,該公司繼續(xù)把重點放在運行時間方面,但是還幫助用戶制定計劃準備應(yīng)對在云服務(wù)中不可避免地出現(xiàn)的混亂局面。
云提供商Terremark嚴重事故
最近,Terremark與Verizon之間的10億美元的交易也許成為了重要新聞。但是,在2010年年初,主要報道的新聞是Terremark的斷網(wǎng)事故。
在2010年3月17日Terremark公司的vCloudExpress服務(wù)在那一天急轉(zhuǎn)直下,在邁阿密的數(shù)據(jù)中心斷網(wǎng)了大約7個小時。在這段時間里,用戶不能訪問存儲在這個數(shù)據(jù)中心的數(shù)據(jù)。
沒有得到更多的冗余。但是,這帶來的冗余的價值,讓你的重要數(shù)據(jù)提供到不同數(shù)據(jù)中心的多臺服務(wù)器,或者最好是提供到不同地區(qū)的多臺服務(wù)器。作為一種故障保險,你還可以采取額外的步驟把數(shù)據(jù)分散到不同的提供者。
亞馬遜Web服務(wù)中斷
乏味的網(wǎng)絡(luò)維護工作是令人討厭的,但在操作系統(tǒng)還并不是非常成熟的前提下,貿(mào)然使用啟動會維護有很高的風(fēng)險,典型性設(shè)置和通用性設(shè)置的具體參數(shù),都不為用戶所熟知,一旦發(fā)生故障,用戶立即會變得束手無措,因為他根本不知道那操作平臺背后究竟隱藏著什么。亞馬遜最嚴重的一次故障,在亞馬遜美國北弗吉尼亞數(shù)據(jù)中心,發(fā)生了嚴重的故障,這個錯誤是一個錯誤的路線的有通訊移動,吧一連串的亞馬遜EBS通訊量發(fā)送到了一個新的鏡像,這種反常現(xiàn)象造成了美國亞馬遜在東部地區(qū)的服務(wù)大規(guī)模中斷,更可怕的是這個錯誤持續(xù)了四天未修復(fù)。很多企業(yè)因此迅速陷入了困境之中,造成了嚴重的損失。
來源:速途網(wǎng) |