快手聯(lián)合阿里云打造混合云彈性調(diào)度架構(gòu)
10月25日消息,為應(yīng)對(duì)直播秒殺的極端流量峰值,快手容器云聯(lián)合阿里云打造了混合云彈性調(diào)度架構(gòu)。日前,快手電商在2023年某大V大促直播活動(dòng)中,首次采用混合云彈性調(diào)度架構(gòu),成功支撐了百萬級(jí)別秒殺峰值的計(jì)算資源需求。
據(jù)介紹,“快手容器云+阿里云”的深度技術(shù)結(jié)合,在“快手電商直播秒殺”場(chǎng)景下,既解決了大V活動(dòng)中短時(shí)間內(nèi)快速?gòu)椥詳U(kuò)容、峰值結(jié)束后快速縮容的問題,又提高了系統(tǒng)應(yīng)對(duì)峰值的快速伸縮、系統(tǒng)穩(wěn)定性、高并發(fā)訴求,并能大大減少資源的持有成本。
數(shù)據(jù)顯示,快手APP目前平均日活躍用戶達(dá)3.76億,平均月活躍用戶達(dá)6.73億,累計(jì)互關(guān)用戶對(duì)數(shù)超過311億對(duì),日均互動(dòng)(包括點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)等)總量達(dá)80億次。為了支撐如此龐大的用戶規(guī)模、業(yè)務(wù)量級(jí),快手建立了多個(gè)龐大的數(shù)據(jù)中心,海量的服務(wù)器集群來承載每日數(shù)億用戶的訪問。
(圖源阿里云公眾號(hào),下同)
快手技術(shù)面臨的挑戰(zhàn),除了用戶規(guī)模龐大帶來的分布式架構(gòu)的復(fù)雜性,更大的挑戰(zhàn)來自于直播間秒殺場(chǎng)景,瞬時(shí)海量用戶的搶購(gòu)并發(fā)極高。直播是快手技術(shù)挑戰(zhàn)最大的場(chǎng)景,而快手直播電商的秒殺活動(dòng)為之最,具有并發(fā)量大、要求極高的特點(diǎn)。
在秒殺活動(dòng)期間,大量用戶會(huì)同時(shí)訪問快手的電商平臺(tái),對(duì)系統(tǒng)的并發(fā)處理能力提出了極高的要求。對(duì)于上億粉絲的大V直播間秒殺期間,單件秒殺商品可能達(dá)到數(shù)百萬件,單品最高秒殺請(qǐng)求達(dá)每秒百萬次,下單交易鏈路系統(tǒng)同時(shí)支撐每秒百萬次的并發(fā)。從下圖可以看出,大V直播期間的秒殺尖峰與日常相比,提交訂單接口的峰值流量是日常的90多倍。
為了應(yīng)對(duì)并發(fā)量極高的秒殺場(chǎng)景,快手采用了如下圖所示的分布式系統(tǒng)架構(gòu)、負(fù)載均衡技術(shù)、緩存技術(shù)、消息隊(duì)列、服務(wù)限流排隊(duì)、熱點(diǎn)緩存優(yōu)化等技術(shù)手段,以提高系統(tǒng)的并發(fā)處理能力和擴(kuò)展性;在數(shù)據(jù)中心能力上,提高服務(wù)器的處理能力和可靠性,以確保系統(tǒng)的穩(wěn)定性和可用性。
此外,還加強(qiáng)對(duì)系統(tǒng)的監(jiān)控和運(yùn)維,及時(shí)發(fā)現(xiàn)和解決問題,確保系統(tǒng)的高可用性。同時(shí),也不斷優(yōu)化系統(tǒng)的性能,提升用戶體驗(yàn)和滿意度。
為了解決大促秒殺尖峰時(shí)刻的資源不足問題,快手建立了彈性容器云能力??焓值膹椥匀萜髟破脚_(tái)基于Docker建設(shè)的平臺(tái),它能夠根據(jù)業(yè)務(wù)需求自動(dòng)擴(kuò)展和收縮容器實(shí)例,以滿足高并發(fā)和大流量場(chǎng)景下的業(yè)務(wù)需求。
通過使用彈性容器云,快手可以在大促秒殺期間快速擴(kuò)展容器實(shí)例,以應(yīng)對(duì)突然增加的流量和請(qǐng)求。當(dāng)流量和請(qǐng)求減少時(shí),彈性容器云又可以自動(dòng)收縮容器實(shí)例,以節(jié)省資源成本。這種彈性伸縮能力可以幫助快手更好地應(yīng)對(duì)業(yè)務(wù)的突發(fā)變化,提高系統(tǒng)的可靠性和可用性。彈性容器云為快手解決大促秒殺期間的彈性伸縮問題提供了有力的支持。
圖注:全量使用自建IDC資源的電商業(yè)務(wù)架構(gòu)
為了應(yīng)對(duì)峰值,快手容器云平臺(tái)構(gòu)建了快手IDC+阿里云的混合云架構(gòu),通過專線打通雙方網(wǎng)絡(luò)互聯(lián)互通,利用阿里云豐富的產(chǎn)品能力和彈性優(yōu)勢(shì)進(jìn)行業(yè)務(wù)“削峰填谷”。阿里云計(jì)算資源具備快手彈性和庫(kù)存優(yōu)勢(shì),為快手容器的彈性和擴(kuò)展提供了強(qiáng)有力的支持,從而更好地應(yīng)對(duì)峰值,滿足高并發(fā)和大流量場(chǎng)景下的業(yè)務(wù)需求。
在擴(kuò)展公有云資源的過程中,會(huì)基于時(shí)延和容災(zāi)域?qū)⑾鄳?yīng)公有云上不同可用區(qū)資源合入到快手內(nèi)部不同可用區(qū)內(nèi),并優(yōu)先將非高頻訪問緩存類的服務(wù)擴(kuò)容到公有云機(jī)房,以優(yōu)化業(yè)務(wù)性能。當(dāng)發(fā)生單可用區(qū)的故障時(shí),可通過可用區(qū)級(jí)的快速切流來完成業(yè)務(wù)恢復(fù)。同時(shí)為了加速業(yè)務(wù)的啟動(dòng)耗時(shí),在公有云機(jī)房建立了鏡像倉(cāng)庫(kù)緩存節(jié)點(diǎn),結(jié)合p2p鏡像下載機(jī)制,顯著加速公有云上的容器實(shí)例的啟動(dòng)速度。
圖注:?jiǎn)⒂脧椥曰旌显瀑Y源的電商業(yè)務(wù)架構(gòu)
其中的混合云調(diào)度平臺(tái),通過打通預(yù)算管理、容器資源運(yùn)營(yíng)及資源交付等多平臺(tái),實(shí)現(xiàn)了混合云彈性資源的快速交付,滿足業(yè)務(wù)突發(fā)流量的算力資源訴求。
整體過程中實(shí)現(xiàn)了如下平臺(tái)能力:彈性云服務(wù)器資源快速納入容器集群可實(shí)現(xiàn)10萬核計(jì)算資源30分鐘內(nèi)接入快手容器云并達(dá)到業(yè)務(wù)可用狀態(tài);快手自建機(jī)房與公有云機(jī)房資源通過容器集群統(tǒng)一納管可提供一致化的算力交付,業(yè)務(wù)側(cè)不感知底層資源差異;智能化的資源調(diào)度策略,平臺(tái)統(tǒng)一托管資源分配策略,突發(fā)流量所需要的業(yè)務(wù)擴(kuò)容優(yōu)先使用云上資源,活動(dòng)結(jié)束縮容優(yōu)先退還云上資源并自動(dòng)下線主機(jī)。
圖注:混合云彈性資源交付流程示意圖
據(jù)了解,在2023年某大V大促活動(dòng)中,快手電商為了應(yīng)對(duì)大V秒殺峰值的資源計(jì)算需求,快手的彈性容器云快速利用以上打通阿里云的系統(tǒng),進(jìn)行了峰值資源的擴(kuò)容,擴(kuò)充總量級(jí)達(dá)到數(shù)萬核CPU,將下單的峰值吞吐能力提高了1倍,秒殺期間實(shí)際峰值流量達(dá)到每秒百萬次請(qǐng)求,系統(tǒng)各項(xiàng)指標(biāo)穩(wěn)定,系統(tǒng)100%可用,阿里云順利通過了快手大促考驗(yàn),可以平穩(wěn)支撐快手頂流大V大促直播。
下圖中峰值的請(qǐng)求,即為通過阿里云彈性資源應(yīng)對(duì)的峰值計(jì)算資源,解決了短時(shí)間內(nèi)快速?gòu)椥詳U(kuò)容、峰值結(jié)束后快速縮容的問題,既提高了系統(tǒng)應(yīng)對(duì)峰值的快速伸縮、系統(tǒng)穩(wěn)定性、高并發(fā)訴求,又能大大減少資源的持有成本。
官方表示,通過“快手容器云 + 阿里云”的技術(shù)深度結(jié)合,在“快手電商直播秒殺”場(chǎng)景下的大規(guī)模首次應(yīng)用,也論證和驗(yàn)證了快手彈性容器云能力在應(yīng)對(duì)高峰彈性上的實(shí)際效果,也為快手未來借助阿里云解決資源成本優(yōu)勢(shì)、快速擴(kuò)縮容提供了堅(jiān)實(shí)的基礎(chǔ),為快手引領(lǐng)直播電商技術(shù)的趨勢(shì)提供了有力的支持。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn