阿里巴巴推出AI圖生視頻模型EMO

周興
2024-02-29 08:27

緊隨Sora,阿里也推出AI圖生視頻模型EMO。

阿里巴巴集團(tuán)智能計(jì)算研究院在近日上線了一款新的AI圖片-音頻-視頻模型技術(shù)EMO,官方稱其為“一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架”。目前,EMO框架上線到GitHub中,相關(guān)論文也在arxiv上公開。

據(jù)悉,用戶只需要提供一張照片和一段任意音頻文件,EMO即可生成會(huì)說話唱歌的AI視頻,以及實(shí)現(xiàn)無縫對(duì)接的動(dòng)態(tài)小視頻,最長時(shí)間可達(dá)1分30秒左右。表情非常到位,任意語音、任意語速、任意圖像都可以一一對(duì)應(yīng)。

format-jpg

EMO框架介紹 圖源:GitHub官網(wǎng)

阿里研究團(tuán)隊(duì)表示,EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻,同時(shí),其可以根據(jù)輸入視頻的長度生成任意持續(xù)時(shí)間的視頻。

同時(shí),EMO還擁有音頻驅(qū)動(dòng)的人像視頻生成,表情豐富的動(dòng)態(tài)渲染,多種頭部轉(zhuǎn)向姿勢支持、增加視頻的動(dòng)態(tài)性和真實(shí)感,支持多種語言和肖像風(fēng)格,快速節(jié)奏同步,跨演員表現(xiàn)轉(zhuǎn)換等多個(gè)特點(diǎn)與功能。

技術(shù)層面,阿里研究人員分享稱,EMO框架使用 Audio2Video 擴(kuò)散模型,生成富有表現(xiàn)力的人像視頻。該技術(shù)主要包括三個(gè)階段:一是幀編碼的初始階段,ReferenceNet 用于從參考圖像和運(yùn)動(dòng)幀中提取特征;二是在擴(kuò)散過程階段,預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入。面部區(qū)域掩模與多幀噪聲集成以控制面部圖像的生成;三是使用主干網(wǎng)絡(luò)來促進(jìn)去噪操作。在主干網(wǎng)絡(luò)中,應(yīng)用了兩種形式——參考注意力和音頻注意力機(jī)制,這些機(jī)制分別對(duì)于保留角色的身份和調(diào)節(jié)角色的動(dòng)作至關(guān)重要。此外,EMO的時(shí)間模塊用于操縱時(shí)間維度,并調(diào)整運(yùn)動(dòng)速度。

format-jpg

EMO相關(guān)論文簡介圖源:arxiv官網(wǎng)

阿里巴巴集團(tuán)新任CEO吳泳銘曾表示,為了服務(wù)好更多的企業(yè)和AI開發(fā)者,阿里堅(jiān)持做好兩件事:一是提供穩(wěn)定高效的AI基礎(chǔ)服務(wù)體系,特別是強(qiáng)大的云計(jì)算能力,為全行業(yè)訓(xùn)練AI、全社會(huì)使用AI打造堅(jiān)實(shí)的基礎(chǔ)底座。二是創(chuàng)建開放繁榮的AI生態(tài)。

過去一年,阿里巴巴在AI方面持續(xù)發(fā)力,包括阿里云推出通義千問、通義萬相等多款對(duì)標(biāo)OpenAI的AI大模型產(chǎn)品,以及基于雙流條件擴(kuò)散模型的真人百變換裝技術(shù)Outfi tAnyone、角色動(dòng)畫模型Animate Anyone等技術(shù),實(shí)現(xiàn)多個(gè)場景應(yīng)用。

今年1月26日,阿里推出的Qwen-VL模型實(shí)現(xiàn)多次迭代升級(jí),并宣布Plus和Max兩大版本升級(jí),支持以圖像、文本作為輸入,并以文本、圖像、檢測框作為輸出,讓大模型真正具備了“看”世界的能力。

阿里方面稱,相比于開源版本的Qwen-VL,Plus和Max版本模型在多項(xiàng)圖文多模態(tài)標(biāo)準(zhǔn)測試中獲得了堪比Gemini Ultra和GPT-4V的水準(zhǔn),并大幅超越此前開源模型的最佳水平。

format-jpg

阿里Qwen-VL模型介紹 圖源:GitHub官網(wǎng)

除了自研AI模型技術(shù)產(chǎn)品之外,阿里還推動(dòng)投資一些AI大模型公司。在今年2月,阿里領(lǐng)投了國內(nèi) AI 大模型團(tuán)隊(duì)月之暗面(MoonShot AI)10億美元的新一輪融資,促使該公司估值高達(dá)25億美元,成為中國 AI 初創(chuàng)公司最大的一筆單輪融資。

在去年10月,阿里參投了百川智能公司3億美元的A1輪戰(zhàn)略融資。官網(wǎng)資料顯示,百川智能成立于2023年4月10日,由前搜狗公司CEO王小川創(chuàng)立。公司核心團(tuán)隊(duì)由來自搜狗、百度、華為、微軟、字節(jié)、騰訊等知名科技公司的AI人才組成。百川智能成立不到100天,便發(fā)布了Baichuan-7B、Baichuan-13B兩款開源可免費(fèi)商用的中文大模型,且在多個(gè)權(quán)威評(píng)測榜單均名列前茅,下載量突破百萬。

format-jpg

百川智能融資歷程 圖源:天眼查APP截圖 

阿里還將AI用在不同領(lǐng)域。在醫(yī)療方面,阿里巴巴“醫(yī)療AI多癌早篩公益項(xiàng)目”于近日在浙江麗水啟動(dòng)。該項(xiàng)目將達(dá)摩院醫(yī)療AI前沿技術(shù)創(chuàng)新應(yīng)用于衛(wèi)生健康領(lǐng)域,希望通過大規(guī)模的隨機(jī)性日常檢查,實(shí)現(xiàn)多癌早篩,提升當(dāng)?shù)氐臄?shù)字健康水平,這也是全國首個(gè)落地的通過AI實(shí)現(xiàn)多癌早篩項(xiàng)目,意味著AI前沿研究走出實(shí)驗(yàn)室,有望向更多醫(yī)療資源不均衡的地區(qū)推廣。

據(jù)悉,“醫(yī)療AI多癌早篩公益項(xiàng)目”不僅增加了早篩的種類和精確度,還可一次早篩多個(gè)癌種,將有效提高癌癥的篩查效率,提高無癥狀人群的早期癌癥發(fā)現(xiàn)率,從而改善癌癥患者預(yù)后。該項(xiàng)目在麗水將先從胰腺癌和骨質(zhì)疏松兩個(gè)病種入手展開早篩,并逐步接入肝癌、食管癌、胃癌、結(jié)腸癌、脂肪肝等癌癥和慢性病的篩查能力。

在招聘方面,前程無憂與阿里云簽訂關(guān)于“招聘+AI”的全面合作備忘錄,雙方將基于公共云搭建“招聘+AI平臺(tái)”,從推薦搜索、AI工程化等方向開展全面合作。同時(shí),前程無憂計(jì)劃接入大模型,讓大模型技術(shù)在招聘領(lǐng)域落地。

format-jpg

阿里巴巴“醫(yī)療AI多癌早篩公益項(xiàng)目” 圖源:阿里巴巴公益官微

阿里云近日發(fā)布數(shù)據(jù)顯示,2023年,通過落實(shí)“堅(jiān)持伙伴優(yōu)先”的生態(tài)戰(zhàn)略,阿里云與遍布中國133個(gè)地級(jí)市的12000家伙伴一起,服務(wù)了超50萬家客戶。 

2023年,阿里云為340余家伙伴提供產(chǎn)品生態(tài)集成認(rèn)證,目前已有1300余個(gè)伙伴產(chǎn)品完成了與阿里云產(chǎn)品的兼容適配,以更好地在客戶側(cè)落地技術(shù)方案;區(qū)域合作伙伴集成阿里云的業(yè)務(wù)額同比增加了28%,65家伙伴面向政務(wù)、金融、能源、制造、交通等行業(yè)推出100余個(gè)聯(lián)合解決方案;2000家服務(wù)伙伴已聯(lián)合成功交付數(shù)萬個(gè)政企項(xiàng)目。

2023年,阿里云發(fā)起“通義千問伙伴計(jì)劃”。朗新、亞信、用友、數(shù)字政通、藍(lán)凌、千方等60余家伙伴加入,借助通義大模型家族的技術(shù),推動(dòng)大模型行業(yè)應(yīng)用。目前阿里云已向伙伴提供了超1200人天技術(shù)專家支持,攜手伙伴驗(yàn)證了“通義千問”大模型在多個(gè)行業(yè)應(yīng)用,涉及智能問答、文章摘要、文案寫作、代碼輔助、知識(shí)庫升級(jí)等場景。

format-jpg

圖源:阿里云公眾號(hào)

據(jù)最新財(cái)報(bào)顯示,截至2023年12月31日止三個(gè)月,云智能集團(tuán)收入為人民幣28066百萬元(3953百萬美元),相較2022年同期的人民幣27364百萬元增長3%。收入同比增長主要受阿里巴巴并表業(yè)務(wù)所驅(qū)動(dòng)。不計(jì)來自阿里巴巴并表業(yè)務(wù)的收入同比下降,主要是由于集團(tuán)通過減少來自利潤率較低的項(xiàng)目式合約類收入以持續(xù)提升收入質(zhì)量所致,然而來自公共云產(chǎn)品及服務(wù)的收入同比健康增長。 

云智能集團(tuán)截至2023年12月31日止三個(gè)月的經(jīng)調(diào)整息稅前利潤(稅前利潤)為人民幣2364百萬元(333百萬美元),相較2022年同期的人民幣1269百萬元增長86%,主要是由于集團(tuán)專注于公共云而導(dǎo)致的產(chǎn)品結(jié)構(gòu)改善和運(yùn)營效率提升所致。

format-jpg

圖源:阿里巴巴2023年12月31日止季度業(yè)績公告

1、該內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電商派觀點(diǎn)或立場,文章為作者本人上傳,版權(quán)歸原作者所有,未經(jīng)允許不得轉(zhuǎn)載。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn
相關(guān)閱讀
1月12日消息,日前,阿里巴巴、北京智源人工智能研究院、清華大學(xué)、中國科學(xué)院等聯(lián)合研究團(tuán)隊(duì)發(fā)布面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型“文匯”,旨在探索解決當(dāng)前大規(guī)模自監(jiān)督預(yù)訓(xùn)練模型不具有認(rèn)知能力的問題。“文匯”也是目前我國規(guī)模最大的預(yù)訓(xùn)練模型。據(jù)了解,該模型不僅能提升AI的理解能力,還可基于常識(shí)實(shí)現(xiàn)AI創(chuàng)作,未來將應(yīng)用于文本理解、人機(jī)交互、視覺問答等場景。
3月3日消息,阿里巴巴與清華大學(xué)聯(lián)合發(fā)布中文多模態(tài)預(yù)訓(xùn)練AI模型M6。據(jù)介紹,預(yù)訓(xùn)練語言模型是讓AI具備認(rèn)知能力的關(guān)鍵技術(shù),此次發(fā)布的M6模型參數(shù)規(guī)模達(dá)到1000億,其理解和生成能力超越傳統(tǒng)AI?!峨娚虉?bào)》獲悉,日前,阿里巴巴還與智源研究院、清華大學(xué)等聯(lián)合研究團(tuán)隊(duì)發(fā)布面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型“文匯”。該模型提升AI的理解能力,還可基于常識(shí)實(shí)現(xiàn)AI創(chuàng)作,未來將應(yīng)用于文本理解、人機(jī)交互、視覺問答等場景。
11月15日消息,阿里巴巴發(fā)布2025財(cái)年第二財(cái)季財(cái)報(bào)。財(cái)報(bào)顯示,阿里巴巴第二財(cái)季收入2365.03億元,同比增長5%。其中,云智能集團(tuán)營收為296.10億元,同比增長7%。該增長由公共云業(yè)務(wù)的雙位數(shù)增長帶動(dòng),其中包括AI相關(guān)產(chǎn)品采用量的提升,AI相關(guān)產(chǎn)品收入連續(xù)五個(gè)季度實(shí)現(xiàn)三位數(shù)的同比增長。
吳泳銘表示,阿里始終將提升平臺(tái)治理能力,積極履行社會(huì)責(zé)任,努力打造清朗、健康、有序的網(wǎng)絡(luò)空間作為責(zé)任與義務(wù)。
8月29日消息,在德勤中國全國合伙人大會(huì)阿里巴巴集團(tuán)董事會(huì)主席兼CEO、阿里云智能集團(tuán)董事長兼CEO張勇談道,AI時(shí)代一定會(huì)出現(xiàn)新的領(lǐng)軍企業(yè),是全新生態(tài)形成的過程。新一代AI將在兩個(gè)層面帶來極大改變,一方面對(duì)企業(yè)來說,AI將極大提升生產(chǎn)力和效率,另一方面對(duì)用戶來說,有可能出現(xiàn)下一代搜索、社區(qū)等新物種的爆發(fā)。
7月18日消息,Data ai發(fā)布2023年6月中國非游戲廠商及應(yīng)用出海收入30強(qiáng),其中廠商收入榜單前半部變化不大,僅合合信息科技上升2位。該廠商旗下商務(wù)名片應(yīng)用CamCard海外用戶支出較5月上漲162%,其中日本市場表現(xiàn)最佳。根據(jù)Data ai數(shù)據(jù)顯示,6月阿里巴巴整體用戶支出較5月提升12%。排名變化較大的應(yīng)用包括MoboReader、Plant Parent、SUGO以及Resso,前三款產(chǎn)品憑借在特定細(xì)分市場成功突圍,收入得到顯著增長,后者則不幸在印度市場遇冷。
通過訓(xùn)練AI模型,研究表情和聲音的關(guān)系。給定一段聲音和僅有一張正確人臉的若干張圖片,AI將為該聲音找到“主人”。在“1對(duì)N”的匹配實(shí)驗(yàn)中,AI還能對(duì)聲音歸屬人臉的“可能性”進(jìn)行排序。據(jù)介紹,在語音識(shí)別方面,達(dá)摩院提出SAN-M網(wǎng)絡(luò)結(jié)構(gòu)及基于SCAMA的流式端到端語音識(shí)別框架,提升計(jì)算效率的同時(shí),還將高難度場景中的語音識(shí)別錯(cuò)誤率降低近三成。
9月11日消息,阿里巴巴國際站官方公眾號(hào)于本周五晚間宣布,在美國 Co-Create2023 大會(huì),旗下AI采購助手“Smart Assistant”正式推出。據(jù)介紹,該工具包括智能升級(jí)后的圖片搜索、RFQ、溝通工具和采購助手等功能,官方表示Smart Assistant可幫助全球中小企業(yè)提升采購效率,尤其采購中國商品方面。
    亚洲无码高清自拍偷拍自慰av网站,免费高清无码黄色网,欧美一级片免费在线观看,午夜毛片在线观看