字節(jié)跳動(dòng)火山翻譯上新38個(gè)稀有語(yǔ)種
12月31日消息,據(jù)IT之家消息,近日,字節(jié)跳動(dòng)旗下火山翻譯官網(wǎng)上新了包括世界語(yǔ)、塔希提語(yǔ)、韃靼語(yǔ)等在內(nèi)的38個(gè)稀有語(yǔ)種的翻譯。
目前,包括漢語(yǔ)、英語(yǔ)、阿拉伯語(yǔ)、俄語(yǔ)、法語(yǔ)、西班牙語(yǔ)六個(gè)通用語(yǔ)種在內(nèi),火山翻譯已具備94個(gè)語(yǔ)種、8742個(gè)語(yǔ)向的翻譯能力,整體bleu(機(jī)器翻譯質(zhì)量自動(dòng)評(píng)估指標(biāo))達(dá)33.45,能夠滿足不同國(guó)家地區(qū)、不同種類的翻譯需求。
藍(lán)色部分為火山翻譯上新的38個(gè)語(yǔ)種
據(jù)了解,通過(guò)采用自研的mRASP多語(yǔ)言模型,火山翻譯僅使用一個(gè)模型就完成了上述38個(gè)語(yǔ)種與英文的雙向互譯,突破了傳統(tǒng)雙語(yǔ)言翻譯模型對(duì)每個(gè)語(yǔ)向單獨(dú)訓(xùn)練、單獨(dú)上線服務(wù)的方式,大幅降低機(jī)器學(xué)習(xí)的訓(xùn)練和服務(wù)成本。
火山翻譯團(tuán)隊(duì)介紹稱,通常情況下,訓(xùn)練76個(gè)語(yǔ)向的雙語(yǔ)言模型需要150-200天。而相同硬件條件下,訓(xùn)練一個(gè)多語(yǔ)言模型只需要30天。對(duì)于請(qǐng)求量小的語(yǔ)種,使用mRASP模型集中服務(wù)可以大大節(jié)省計(jì)算資源,僅需半張用于深度學(xué)習(xí)訓(xùn)練的Tesla T4顯卡就可以滿足38個(gè)語(yǔ)言的全部翻譯請(qǐng)求,和雙語(yǔ)翻譯所需的資源一樣。
據(jù)悉,火山翻譯通過(guò)mRASP中的對(duì)比學(xué)習(xí)和詞對(duì)齊信息,可以很好地借助單語(yǔ)語(yǔ)料和其他擁有豐富語(yǔ)料的語(yǔ)種來(lái)幫助訓(xùn)練,彌補(bǔ)訓(xùn)練數(shù)據(jù)的不足。數(shù)據(jù)顯示,火山翻譯此次上新的稀有語(yǔ)種平均bleu值達(dá)33.36,其中,海地語(yǔ)翻譯表現(xiàn)最為突出,bleu值達(dá)50.76。
目前,火山翻譯擁有火山同傳、機(jī)器翻譯與視頻翻譯三大產(chǎn)品,支持飛書、今日頭條、西瓜視頻等業(yè)務(wù)的翻譯需求,并通過(guò)字節(jié)跳動(dòng)旗下的企業(yè)級(jí)技術(shù)服務(wù)平臺(tái)火山引擎對(duì)外提供翻譯服務(wù)。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn