魔搭社區(qū)上線AI視頻生成工具Live Portait,可一鍵讓照片開口說(shuō)話
阿里云在生成式AI領(lǐng)域又有新進(jìn)展。8月16日消息,阿里云推出數(shù)字人視頻生成工具Live Portait,上傳一張照片和一段文本或語(yǔ)音即可生成一段開口說(shuō)話的數(shù)字人視頻,可應(yīng)用于視頻直播、聊天機(jī)器人、企業(yè)營(yíng)銷等場(chǎng)景。目前,該工具已在魔搭社區(qū)創(chuàng)空間開放體驗(yàn)。
自對(duì)話大模型和AI繪畫模型相繼火熱后,業(yè)界對(duì)生成式AI的研究逐步朝更多模態(tài)的方向演進(jìn),AI視頻生成便是熱門技術(shù)之一。該技術(shù)可將文本或音頻等信息轉(zhuǎn)換為面部運(yùn)動(dòng)信息,進(jìn)而驅(qū)動(dòng)生成照片人物形象的動(dòng)畫,能有效降低視頻拍攝和制作門檻。
此次上線的Live Portait工具由運(yùn)動(dòng)模塊和生成模塊組成,其采用阿里云自研的口型預(yù)測(cè)算法,生成的口型準(zhǔn)確度相比傳統(tǒng)方法大幅提高;在訓(xùn)練階段,增加了姿態(tài)的顯式控制,無(wú)需底板視頻也可以生成任意動(dòng)作的視頻,大幅提升數(shù)字人說(shuō)話的真實(shí)感;此外,通過(guò)眼神主動(dòng)控制技術(shù),Live Portait可以為眼球增加一些自然運(yùn)動(dòng),使得生成結(jié)果在觀感上更接近真人效果。據(jù)介紹,Live Portait相關(guān)技術(shù)已被CVPR、ICCV等國(guó)際AI頂會(huì)收錄。
根據(jù)魔搭社區(qū)上的信息顯示,在Live Portait上傳照片后,用戶可選擇文本驅(qū)動(dòng)和音頻驅(qū)動(dòng)兩種方式,文本驅(qū)動(dòng)模式下,該工具提供了普通話、英語(yǔ)、粵語(yǔ)、童聲等28種聲音。此外,Live Portait還提供了輕量模型選擇,幫助用戶更快速生成視頻。
該工具算法負(fù)責(zé)人張邦表示:“ Live Portait集成了團(tuán)隊(duì)多項(xiàng)自研創(chuàng)新技術(shù),例如僅需單張圖片就能生成逼真的面部動(dòng)畫,突破了傳統(tǒng)對(duì)抗生成網(wǎng)絡(luò)的局限。隨著技術(shù)的進(jìn)一步迭代,圖生視頻有巨大的應(yīng)用空間,有望成為企業(yè)降本增效的生產(chǎn)工具?!?/span>
據(jù)悉,該團(tuán)隊(duì)研究方向涵蓋數(shù)字人、3D模型AI生成、高真實(shí)感渲染、自然人機(jī)交互等領(lǐng)域,目前已發(fā)表50多篇國(guó)際頂會(huì)論文。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn