阿里開源深度學(xué)習(xí)訓(xùn)練框架EPL 可支持10萬億參數(shù)模型
3月7日消息,近日,阿里巴巴宣布完全開源支持10萬億模型的自研分布式深度學(xué)習(xí)訓(xùn)練框架EPL(Easy Parallel Library,原名whale),進(jìn)一步完善深度學(xué)習(xí)生態(tài)。
據(jù)了解,EPL由阿里云機(jī)器學(xué)習(xí)平臺PAI團(tuán)隊(duì)自主研發(fā),PAI是面向開發(fā)者和企業(yè)的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)工程平臺,提供包含數(shù)據(jù)標(biāo)注、模型構(gòu)建、模型訓(xùn)練、編譯優(yōu)化、推理部署在內(nèi)的AI開發(fā)全鏈路服務(wù),內(nèi)置140多種優(yōu)化算法,具備豐富的行業(yè)場景插件,為用戶提供低門檻、高性能的云原生AI工程化能力。
(圖源站長之家)
EPL通過對不同并行化策略進(jìn)行統(tǒng)一抽象、封裝,在一套分布式訓(xùn)練框架中支持多種并行策略,并進(jìn)行顯存、計(jì)算、通信等全方位優(yōu)化來提供易用、高效的分布式訓(xùn)練框架。
EPL適合不同場景的模型,在阿里巴巴內(nèi)部已經(jīng)支持圖像、推薦、語音、視頻、自然語言、多模態(tài)等多樣性的業(yè)務(wù)場景。同時(shí),EPL也支持不同規(guī)模的模型,最大完成了10萬億規(guī)模的M6模型訓(xùn)練,相比之前發(fā)布的大模型GPT-3,M6實(shí)現(xiàn)同等參數(shù)規(guī)模能耗僅為其1%。
最新測試結(jié)果顯示,使用EPL的流水+數(shù)據(jù)并行對Bert Large模型進(jìn)行優(yōu)化,相比于數(shù)據(jù)并行,訓(xùn)練速度提升了66%。
阿里云資深技術(shù)專家九豐表示,未來將在軟硬件一體優(yōu)化、全自動(dòng)策略探索等幾個(gè)探索性方向上持續(xù)投入精力。將EPL完全開源,希望和深度學(xué)習(xí)訓(xùn)練框架的開發(fā)者或深度學(xué)習(xí)從業(yè)者之間有更多更好的交流和共建,持續(xù)完善深度學(xué)習(xí)生態(tài)。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn