字節(jié)跳動開源大模型訓(xùn)練框架veGiantModel
3月17日消息,據(jù)IT之家消息,近日,字節(jié)跳動應(yīng)用機器學(xué)習(xí)團隊開源了一款名為veGiantModel的大模型訓(xùn)練框架,主要應(yīng)用于自然語言處理領(lǐng)域的大模型訓(xùn)練,最高可將大模型訓(xùn)練的性能提升6.9倍,大幅降低訓(xùn)練系統(tǒng)的壓力。
目前,字節(jié)跳動旗下的企業(yè)級技術(shù)服務(wù)平臺火山引擎已在其機器學(xué)習(xí)平臺上原生支持了該框架,該平臺正在公測中。
據(jù)了解,自然語言處理是人工智能研究的一個重要領(lǐng)域,旨在幫助計算機理解、解釋和運用人類語言,可應(yīng)用于機器翻譯、個性化推薦和信息提取等領(lǐng)域。
近些年,自然語言處理在應(yīng)用方面取得了較為顯著的突破,主要歸功于深度學(xué)習(xí)以及相關(guān)技術(shù)的發(fā)展,尤其是Bert、GPT、GPT-3等大規(guī)模預(yù)訓(xùn)練語言模型的普及。
針對現(xiàn)有訓(xùn)練系統(tǒng)在大模型訓(xùn)練場景下的顯存壓力、計算壓力和通信壓力挑戰(zhàn),字節(jié)跳動應(yīng)用機器學(xué)習(xí)團隊提出了大模型訓(xùn)練框架veGiantModel。大規(guī)模訓(xùn)練模型可以包含更多數(shù)據(jù),表示更多信息,算法表現(xiàn)更加出眾。
與主流開源訓(xùn)練框架的對比測試顯示,veGiantModel的性能表現(xiàn)最好、受網(wǎng)絡(luò)帶寬影響最小,在Tesla V100上較Megatron、DeepSpeed有1.2倍到3.5倍的提升,在Ampere A100上最高可提升6.9倍。
據(jù)報道,近年來,字節(jié)跳動持續(xù)推動技術(shù)開源。2021年,字節(jié)跳動技術(shù)團隊陸續(xù)開源了微服務(wù)中間件CloudWeGo、LightSeq訓(xùn)練加速引擎等30余個重要項目。
字節(jié)跳動相關(guān)技術(shù)負(fù)責(zé)人表示,推廣科技創(chuàng)新成果的應(yīng)用并推行技術(shù)開源一直是公司所倡導(dǎo)的,技術(shù)團隊將持續(xù)通過科技創(chuàng)新為行業(yè)發(fā)展提供更多動力,助力科技更好地造福社會。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
