對標(biāo)Sora,清華搞的視頻AI來了
又是一種新的感覺。
一、快手可靈不再獨步武林
2022年ChatGPT的崛起點燃了國內(nèi)外各大企業(yè)對AI大模型的熱情,這把火燃到現(xiàn)在從文字大模型到圖片大模型,終于也點燃到了視頻大模型。
恰好近期,國內(nèi)的視頻AI大模型一個個正式浮出水面,沒成想作為先行者的Sora還未正式開發(fā)出實用產(chǎn)品,這些個“國產(chǎn)Sora”反而先斗了起來。
說到“國產(chǎn)Sora”,今年以來最威風(fēng)的就是快手的可靈AI,從概念的發(fā)布到可靈AI的正式上線,相關(guān)的報道數(shù)不勝數(shù)。
這不,就在這幾天,智譜上線了清影AI,今年4月小火一把的清華系視頻大模型Vidu也正式上線。
Vidu是生數(shù)科技與清華大學(xué)聯(lián)合研究的視頻大模型,自誕生起對標(biāo)的就是Sora大模型,同樣也擁有文字生成視頻和圖片生成視頻的功能。

圖源:Vidu官網(wǎng)
清華大學(xué)作為國內(nèi)頂尖的高等學(xué)府,在人工智能領(lǐng)域的研究一直處于領(lǐng)先地位,正因如此由清華團(tuán)隊一手打造的Vidu也身負(fù)著比快手可靈更重的期待。
此次Vidu的全球上線,不僅是國產(chǎn)視頻大模型技術(shù)上的突破,更是對全球AI視頻生成技術(shù)發(fā)展趨勢的一次有力回應(yīng)。
在全球范圍內(nèi),AI視頻生成技術(shù)正以驚人的速度發(fā)展,各大科技公司紛紛推出自己的視頻生成模型,試圖在這一新興領(lǐng)域占據(jù)一席之地。
然而,大多數(shù)模型仍處于概念或測試階段,真正能夠面向公眾開放使用的并不多見,恰好Vidu是后者,并且一上線面向的就是全球的用戶。
實際上,相對于快手的可靈ai而言,Vidu的理論戰(zhàn)力更接近Sora。
首先,Vidu的工作原理基于一種融合了Diffusion和Transformer的U-ViT架構(gòu),這一架構(gòu)由生數(shù)科技早在2022年9月提出,比Sora的DiT架構(gòu)更早。
這種架構(gòu)的優(yōu)勢在于其能夠更好地模擬真實世界的物理原理,同時保持視頻中主體的一致性,也是早前Vidu宣稱對標(biāo)Sora的底氣所在。
其次,Vidu在創(chuàng)新上也毫不遜色。它不僅支持文生視頻、圖生視頻兩大功能,還能在極短的時間內(nèi)生成高質(zhì)量的視頻內(nèi)容。
根據(jù)官方自己的宣傳,只需3次眨眼的時間,就能生成一段4秒的視頻。

圖源:Vidu官網(wǎng)
而根據(jù)實測下來的結(jié)果,發(fā)現(xiàn)哪怕是用CPU核顯,視頻生成時間也沒有超過30秒。
那與其他視頻AI相比,Vidu的具體區(qū)別在哪里?
還是先得明確,Vidu現(xiàn)在可以說是一個真正開放給公眾使用的模型,而不再僅存于一個概念或Demo。
這一點,從Vidu全面開放注冊體驗的舉措中就可見一斑。用戶無需申請,即可注冊并體驗到Vidu帶來的視頻生成技術(shù)的魅力。
不過,目前的Vidu還沒有長視頻生成能力。Vidu本身只提供4秒和8秒兩種時長選擇,以及最高1080P的分辨率。
做不了一段炫酷的宣傳片,但要讓一張搞怪的表情包活靈活現(xiàn)地動起來卻不是什么難事。
當(dāng)然了,可靈AI能生成的視頻最長也才10秒。
而且Vidu也不是完全免費使用,要想生成高質(zhì)量的8秒視頻也得開會員才行,這一點倒是與可靈近期的操作不謀而合,畢竟有收入才能接著進(jìn)步,也能理解。

圖源:Vidu官網(wǎng)
對了,目前的Vidu是以全球開放的形式上線,所以支付方式偏向國際網(wǎng)站,這樣一看最低7.99美金一月的Vidu會員同樣只能生成幾秒的視頻,不知道大家覺得值不值?
二、Vidu好不好用一探便知
說得再多,吹得再天花亂墜,不自己試用一下都是空中樓閣。
那么,就讓我們來一探究竟,看看Vidu究竟有哪些讓人眼前一亮的功能和效果。
順帶著才上線的智譜清影與快手可靈一塊玩玩,看看哪家更懂我們想要什么。
首先,先來感受下Vidu生成的視頻畫質(zhì)到底如何。分別往Vidu、可靈AI、智譜清影中輸入提示詞:“末日畫風(fēng),夕陽下的海灘,赤紅的陽光灑在波光粼粼的海面上?!?/span>
值得一提的是,相較于可靈和智譜清影的創(chuàng)作工具,Vidu稍顯稚嫩,對于運鏡、創(chuàng)意能力等進(jìn)階參數(shù)設(shè)置主要還是得靠提示詞實現(xiàn),使用門檻相對高了一些。
但從生成的結(jié)果來看,Vidu的表現(xiàn)還是讓人覺得有些意外。

圖源:Vidu

圖源:智譜清影
在預(yù)先的設(shè)想中,這段描述所該有的場景應(yīng)與智譜清影生成的畫面大致相同,但Vidu的視頻反而更有意境一些,這很可能跟它訓(xùn)練多用的是電影素材有關(guān)。
而可靈AI生成的根本就是一張漸漸放大的圖片,而且與描述的末日畫風(fēng)完全不符,看起來就像是度假中的隨手一拍。

圖源:可靈AI
從畫面質(zhì)感來看,Vidu生成的視頻清晰度還算滿意,只是這色彩協(xié)調(diào)與描述中的“赤紅”相差不少,色彩也不如其他兩家鮮艷。
但要知道同樣是幾秒的視頻,可靈AI生成的視頻大小是6.13MB,智譜清影生成的大小為2.67MB,而Vidu生成的視頻僅有759KB!
這樣一看對于畫面飽和度的不足是不是就能理解了一些,只要能符合需求,視頻作品占的空間不是越小越好?
接下來再來進(jìn)一步看看這些視頻AI的理解能力到底如何。
雖然當(dāng)我們在使用AI來做視頻時需要把他們當(dāng)作小孩一樣事無巨細(xì)地進(jìn)行描述,但這樣無疑增加了使用的門檻。
若是直接能輸入一段自己寫好的腳本生成出來的視頻和想象中拍出來的視頻吻合,那豈不是人人都是腦洞大開的編?。?/span>
說干就干,這回給AI稍微上點難度,輸入提示詞:“動漫電影風(fēng)格,鏡頭緩緩拉遠(yuǎn),一個剛經(jīng)歷過大戰(zhàn)的機(jī)器人在花海中躺了下來?!?/span>
為了保證公平,這一次同樣沒有使用可靈和清影自帶的進(jìn)階參數(shù)設(shè)置,只靠大模型自己對提示詞的理解去完成視頻的生成。

圖源:智譜清影

圖源:Vidu

圖源:可靈AI
而這次的結(jié)果則是各有千秋,沒有哪家完美達(dá)到了所有要求。
依次來看,里面唯一理解描述中的運鏡方式的是智譜清影,但清影生成的那個機(jī)器人實在慘不忍睹,Vidu的機(jī)器人是三家里面最靈動的,但卻根本看不出“剛經(jīng)歷過大戰(zhàn)”。
反倒是第一場表現(xiàn)不佳的可靈AI生成的視頻最接近提示詞的描述,從機(jī)器人的外觀到場景塑造都相當(dāng)不錯。
不過,沒有使用它們自帶的進(jìn)階參數(shù)調(diào)教也可能是其中一個影響因素,畢竟除了Vidu,其他兩家針對運鏡就有專門的設(shè)置,基本不可能在這里出問題。
相比之下Vidu顯得更像傳統(tǒng)的文本生成式大模型,需要用好提示詞才能發(fā)揮出它的強(qiáng)大能力。
好在三種大模型的個性化定制服務(wù),都可以讓用戶參與度大大提升。用戶可以準(zhǔn)確設(shè)置自己想要的視頻參數(shù),如光線、角度、速度等,甚至可以在視頻中加入自己的元素,打造獨一無二的視頻作品。
這種個性化定制服務(wù)在短視頻制作和廣告創(chuàng)意領(lǐng)域同樣具有巨大的應(yīng)用潛力。
想象一下,一個品牌可以根據(jù)自己的需求,快速生成一系列符合品牌形象的視頻,不僅節(jié)省了成本,更提高了效率。
而對于短視頻創(chuàng)作者來說,Vidu等網(wǎng)站也提供了一個展示創(chuàng)意和個性的平臺,讓他們的作品更加生動和有趣。
此次Vidu的上線,讓市場上的這類產(chǎn)品變得更加多樣,快手的可靈也因此多了一名強(qiáng)勁的競爭對手,從哪方面來看,都是件好事。
三、新興賽道還是行業(yè)變革?
話又說回來,智譜清影、Vidu等相繼問世,預(yù)示著新媒體行業(yè)的變革速度逐漸加快。
對于內(nèi)容創(chuàng)作者而言,Vidu不僅僅是一個工具,更是一個能夠激發(fā)創(chuàng)意、提升工作效率的伙伴。
它通過簡化視頻制作流程,使得創(chuàng)作者能夠?qū)⒏嗟木ν度氲絻?nèi)容的構(gòu)思與創(chuàng)新上,這就意味著未來的短視頻等賽道,有創(chuàng)意才能更強(qiáng)大。
然而,這種效率的提升也伴隨著對產(chǎn)業(yè)的沖擊,可能會對傳統(tǒng)的視頻制作行業(yè)造成一定的影響。
事實上,盡管Vidu等AI視頻生成技術(shù)帶來了許多便利,但它們也面臨著不少挑戰(zhàn)與局限性。
技術(shù)上,如何進(jìn)一步提升視頻的真實感、處理復(fù)雜的動態(tài)場景仍是難題。而倫理上,AI生成內(nèi)容的版權(quán)問題、真實度問題等,也引起了廣泛討論。
版權(quán)問題涉及到AI生成內(nèi)容的原創(chuàng)性和版權(quán)歸屬,而真實度問題則關(guān)乎到AI視頻可能被用于誤導(dǎo)公眾的隱患。
這些問題的解決需要行業(yè)內(nèi)部的共同努力,也需要法律法規(guī)的跟進(jìn)與完善。未來的研究與規(guī)范制定應(yīng)當(dāng)著重于確保技術(shù)的健康發(fā)展,同時保護(hù)好社會公共利益。
我們期待這些技術(shù)能夠在未來帶來更多積極的社會影響,為人類的生活增添更多色彩。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
