阿里巴巴推出AI圖生視頻模型EMO
緊隨Sora,阿里也推出AI圖生視頻模型EMO。
阿里巴巴集團(tuán)智能計(jì)算研究院在近日上線了一款新的AI圖片-音頻-視頻模型技術(shù)EMO,官方稱其為“一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架”。目前,EMO框架上線到GitHub中,相關(guān)論文也在arxiv上公開。
據(jù)悉,用戶只需要提供一張照片和一段任意音頻文件,EMO即可生成會(huì)說話唱歌的AI視頻,以及實(shí)現(xiàn)無縫對(duì)接的動(dòng)態(tài)小視頻,最長時(shí)間可達(dá)1分30秒左右。表情非常到位,任意語音、任意語速、任意圖像都可以一一對(duì)應(yīng)。
EMO框架介紹 圖源:GitHub官網(wǎng)
阿里研究團(tuán)隊(duì)表示,EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻,同時(shí),其可以根據(jù)輸入視頻的長度生成任意持續(xù)時(shí)間的視頻。
同時(shí),EMO還擁有音頻驅(qū)動(dòng)的人像視頻生成,表情豐富的動(dòng)態(tài)渲染,多種頭部轉(zhuǎn)向姿勢支持、增加視頻的動(dòng)態(tài)性和真實(shí)感,支持多種語言和肖像風(fēng)格,快速節(jié)奏同步,跨演員表現(xiàn)轉(zhuǎn)換等多個(gè)特點(diǎn)與功能。
技術(shù)層面,阿里研究人員分享稱,EMO框架使用 Audio2Video 擴(kuò)散模型,生成富有表現(xiàn)力的人像視頻。該技術(shù)主要包括三個(gè)階段:一是幀編碼的初始階段,ReferenceNet 用于從參考圖像和運(yùn)動(dòng)幀中提取特征;二是在擴(kuò)散過程階段,預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入。面部區(qū)域掩模與多幀噪聲集成以控制面部圖像的生成;三是使用主干網(wǎng)絡(luò)來促進(jìn)去噪操作。在主干網(wǎng)絡(luò)中,應(yīng)用了兩種形式——參考注意力和音頻注意力機(jī)制,這些機(jī)制分別對(duì)于保留角色的身份和調(diào)節(jié)角色的動(dòng)作至關(guān)重要。此外,EMO的時(shí)間模塊用于操縱時(shí)間維度,并調(diào)整運(yùn)動(dòng)速度。
EMO相關(guān)論文簡介圖源:arxiv官網(wǎng)
阿里巴巴集團(tuán)新任CEO吳泳銘曾表示,為了服務(wù)好更多的企業(yè)和AI開發(fā)者,阿里堅(jiān)持做好兩件事:一是提供穩(wěn)定高效的AI基礎(chǔ)服務(wù)體系,特別是強(qiáng)大的云計(jì)算能力,為全行業(yè)訓(xùn)練AI、全社會(huì)使用AI打造堅(jiān)實(shí)的基礎(chǔ)底座。二是創(chuàng)建開放繁榮的AI生態(tài)。
過去一年,阿里巴巴在AI方面持續(xù)發(fā)力,包括阿里云推出通義千問、通義萬相等多款對(duì)標(biāo)OpenAI的AI大模型產(chǎn)品,以及基于雙流條件擴(kuò)散模型的真人百變換裝技術(shù)Outfi tAnyone、角色動(dòng)畫模型Animate Anyone等技術(shù),實(shí)現(xiàn)多個(gè)場景應(yīng)用。
今年1月26日,阿里推出的Qwen-VL模型實(shí)現(xiàn)多次迭代升級(jí),并宣布Plus和Max兩大版本升級(jí),支持以圖像、文本作為輸入,并以文本、圖像、檢測框作為輸出,讓大模型真正具備了“看”世界的能力。
阿里方面稱,相比于開源版本的Qwen-VL,Plus和Max版本模型在多項(xiàng)圖文多模態(tài)標(biāo)準(zhǔn)測試中獲得了堪比Gemini Ultra和GPT-4V的水準(zhǔn),并大幅超越此前開源模型的最佳水平。
阿里Qwen-VL模型介紹 圖源:GitHub官網(wǎng)
除了自研AI模型技術(shù)產(chǎn)品之外,阿里還推動(dòng)投資一些AI大模型公司。在今年2月,阿里領(lǐng)投了國內(nèi) AI 大模型團(tuán)隊(duì)月之暗面(MoonShot AI)10億美元的新一輪融資,促使該公司估值高達(dá)25億美元,成為中國 AI 初創(chuàng)公司最大的一筆單輪融資。
在去年10月,阿里參投了百川智能公司3億美元的A1輪戰(zhàn)略融資。官網(wǎng)資料顯示,百川智能成立于2023年4月10日,由前搜狗公司CEO王小川創(chuàng)立。公司核心團(tuán)隊(duì)由來自搜狗、百度、華為、微軟、字節(jié)、騰訊等知名科技公司的AI人才組成。百川智能成立不到100天,便發(fā)布了Baichuan-7B、Baichuan-13B兩款開源可免費(fèi)商用的中文大模型,且在多個(gè)權(quán)威評(píng)測榜單均名列前茅,下載量突破百萬。
百川智能融資歷程 圖源:天眼查APP截圖
阿里還將AI用在不同領(lǐng)域。在醫(yī)療方面,阿里巴巴“醫(yī)療AI多癌早篩公益項(xiàng)目”于近日在浙江麗水啟動(dòng)。該項(xiàng)目將達(dá)摩院醫(yī)療AI前沿技術(shù)創(chuàng)新應(yīng)用于衛(wèi)生健康領(lǐng)域,希望通過大規(guī)模的隨機(jī)性日常檢查,實(shí)現(xiàn)多癌早篩,提升當(dāng)?shù)氐臄?shù)字健康水平,這也是全國首個(gè)落地的通過AI實(shí)現(xiàn)多癌早篩項(xiàng)目,意味著AI前沿研究走出實(shí)驗(yàn)室,有望向更多醫(yī)療資源不均衡的地區(qū)推廣。
據(jù)悉,“醫(yī)療AI多癌早篩公益項(xiàng)目”不僅增加了早篩的種類和精確度,還可一次早篩多個(gè)癌種,將有效提高癌癥的篩查效率,提高無癥狀人群的早期癌癥發(fā)現(xiàn)率,從而改善癌癥患者預(yù)后。該項(xiàng)目在麗水將先從胰腺癌和骨質(zhì)疏松兩個(gè)病種入手展開早篩,并逐步接入肝癌、食管癌、胃癌、結(jié)腸癌、脂肪肝等癌癥和慢性病的篩查能力。
在招聘方面,前程無憂與阿里云簽訂關(guān)于“招聘+AI”的全面合作備忘錄,雙方將基于公共云搭建“招聘+AI平臺(tái)”,從推薦搜索、AI工程化等方向開展全面合作。同時(shí),前程無憂計(jì)劃接入大模型,讓大模型技術(shù)在招聘領(lǐng)域落地。
阿里巴巴“醫(yī)療AI多癌早篩公益項(xiàng)目” 圖源:阿里巴巴公益官微
阿里云近日發(fā)布數(shù)據(jù)顯示,2023年,通過落實(shí)“堅(jiān)持伙伴優(yōu)先”的生態(tài)戰(zhàn)略,阿里云與遍布中國133個(gè)地級(jí)市的12000家伙伴一起,服務(wù)了超50萬家客戶。
2023年,阿里云為340余家伙伴提供產(chǎn)品生態(tài)集成認(rèn)證,目前已有1300余個(gè)伙伴產(chǎn)品完成了與阿里云產(chǎn)品的兼容適配,以更好地在客戶側(cè)落地技術(shù)方案;區(qū)域合作伙伴集成阿里云的業(yè)務(wù)額同比增加了28%,65家伙伴面向政務(wù)、金融、能源、制造、交通等行業(yè)推出100余個(gè)聯(lián)合解決方案;2000家服務(wù)伙伴已聯(lián)合成功交付數(shù)萬個(gè)政企項(xiàng)目。
2023年,阿里云發(fā)起“通義千問伙伴計(jì)劃”。朗新、亞信、用友、數(shù)字政通、藍(lán)凌、千方等60余家伙伴加入,借助通義大模型家族的技術(shù),推動(dòng)大模型行業(yè)應(yīng)用。目前阿里云已向伙伴提供了超1200人天技術(shù)專家支持,攜手伙伴驗(yàn)證了“通義千問”大模型在多個(gè)行業(yè)應(yīng)用,涉及智能問答、文章摘要、文案寫作、代碼輔助、知識(shí)庫升級(jí)等場景。
圖源:阿里云公眾號(hào)
據(jù)最新財(cái)報(bào)顯示,截至2023年12月31日止三個(gè)月,云智能集團(tuán)收入為人民幣28066百萬元(3953百萬美元),相較2022年同期的人民幣27364百萬元增長3%。收入同比增長主要受阿里巴巴并表業(yè)務(wù)所驅(qū)動(dòng)。不計(jì)來自阿里巴巴并表業(yè)務(wù)的收入同比下降,主要是由于集團(tuán)通過減少來自利潤率較低的項(xiàng)目式合約類收入以持續(xù)提升收入質(zhì)量所致,然而來自公共云產(chǎn)品及服務(wù)的收入同比健康增長。
云智能集團(tuán)截至2023年12月31日止三個(gè)月的經(jīng)調(diào)整息稅前利潤(稅前利潤)為人民幣2364百萬元(333百萬美元),相較2022年同期的人民幣1269百萬元增長86%,主要是由于集團(tuán)專注于公共云而導(dǎo)致的產(chǎn)品結(jié)構(gòu)改善和運(yùn)營效率提升所致。
圖源:阿里巴巴2023年12月31日止季度業(yè)績公告
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn