騰訊云4月8日故障復(fù)盤:持續(xù)近87分鐘,1957個客戶報障
4月14日消息,騰訊云4月8日故障復(fù)盤及情況說明:4月8日15點23分,騰訊云團隊收到告警信息,云API服務(wù)處于異常狀態(tài);隨即在騰訊云工單、售后服務(wù)群以及微博等渠道開始大量出現(xiàn)騰訊云控制臺登錄不上的客戶反饋;經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云API異常所導(dǎo)致;本次故障的原因是云API服務(wù)新版本向前兼容性考慮不夠,以及配置數(shù)據(jù)灰度機制不足的問題。
圖源:騰訊云官微
云API是云上統(tǒng)一的開放接口集合,客戶可以通過API以編程方式管理和操控云端資源,云控制臺通過組合云API提供交互式的網(wǎng)頁功能。故障發(fā)生后,依賴云API提供產(chǎn)品能力的部分公有云服務(wù),也因為云API的異常出現(xiàn)了無法使用的情況,比如云函數(shù)、文字識別、微服務(wù)平臺、音頻內(nèi)容安全、驗證碼等。此次故障一共持續(xù)了近87分鐘,期間共有1957個客戶報障。
從客戶的視角來看,云服務(wù)大概可以分為數(shù)據(jù)面和控制面,數(shù)據(jù)面承載客戶自身的業(yè)務(wù),控制面負責(zé)操作云上不同產(chǎn)品。比如目前使用最廣泛的IaaS服務(wù),基本上都是以直接面向數(shù)據(jù)面為主,控制面僅在客戶購買或需要對資源層面進行調(diào)整操作時會涉及。
此次發(fā)生故障的控制臺和云API是對控制面的影響,而客戶已經(jīng)配置好的服務(wù)器等IaaS資源,包括已經(jīng)部署運行的業(yè)務(wù),沒有受到云API異常的影響。其他以非云 API 方式提供服務(wù)的PaaS和SaaS服務(wù),處于正常服務(wù)的狀態(tài)。
圖源:騰訊云官微
本次API升級過程中,由于新版本的接口協(xié)議發(fā)生了變化,在后臺發(fā)布新版本之后對于舊版本前端傳來的數(shù)據(jù)處理邏輯異常,導(dǎo)致生成了一條錯誤的配置數(shù)據(jù),由于灰度機制不足導(dǎo)致異常數(shù)據(jù)快速擴散到了全網(wǎng)地域,造成整體API使用異常。
發(fā)生故障后,按照標(biāo)準(zhǔn)回滾方案將服務(wù)后臺和配置數(shù)據(jù)同時回滾到舊版本,并重啟API后臺服務(wù),但此時因為承載API服務(wù)的容器平臺也依賴API服務(wù)才能提供調(diào)度能力,即發(fā)生了循環(huán)依賴,導(dǎo)致服務(wù)無法自動拉起。通過運維手工啟動方式才使API服務(wù)重啟,完成整個故障恢復(fù)。
故障期間,騰訊云售后團隊協(xié)助部分客戶做了業(yè)務(wù)容災(zāi)預(yù)案的實施,將受影響服務(wù)做調(diào)度以快速恢復(fù)客戶的業(yè)務(wù)服務(wù)。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
