阿里云創(chuàng)始人王堅:Sora的意義不止在影響短視頻等行業(yè)
3月12日消息,阿里云創(chuàng)始人王堅在近日接受南方都市報的采訪。在對話中,他針對今年備受關(guān)注的Sora模型、大模型商業(yè)化等問題發(fā)表看法。王堅表示,當(dāng)前國產(chǎn)大模型和GPT-4及其下一代技術(shù)的差距仍然很大,建議通過開源方式,依靠技術(shù)社區(qū)的力量找到發(fā)展路徑,由市場來檢驗其水平。
此外,王堅認為,Sora問世的意義極大,遠不止會對短視頻、影視等行業(yè)帶來沖擊,它解決了非常復(fù)雜的一件事——視覺問題,甚至直言“如果能創(chuàng)造視頻,它也就能創(chuàng)造世界?!?/p>
阿里云創(chuàng)始人王堅 圖源:阿里云視頻號
以下為對話內(nèi)容:
南都:2024年被認為是AI大模型應(yīng)用的浪潮年。在大模型產(chǎn)品的商業(yè)化或市場化方面,有哪些思考可以分享?
王堅:在我看來,商業(yè)化和市場化不完全是一個意思。商業(yè)化是要一手交錢一手交貨的,而市場化的重點在于要產(chǎn)生市場價值。以搜索這一服務(wù)項目為例,它的用戶量巨大,可以算作已經(jīng)“市場化”了。不過,從來沒有人為使用搜索服務(wù)付錢,而是為搜索頁面上的廣告付費。所以從這個角度講,搜索本身并沒有實現(xiàn)商業(yè)化,但是它完成了市場化,有人便進而想出加廣告的模式對其進行商業(yè)化。我認為,市場化是商業(yè)化的基礎(chǔ),商業(yè)化是市場價值的重要體現(xiàn)。
南都:那你認為目前大模型的商業(yè)化之路進展如何?
王堅:當(dāng)今全球范圍里,所謂的大模型商業(yè)化還是在探索過程中。不過,目前事實已經(jīng)證明,它有用戶基礎(chǔ),也就是可以“市場化”的,那就有可能產(chǎn)生商業(yè)價值——這一點其實很重要,一個產(chǎn)品如果沒有用戶基礎(chǔ),就算實現(xiàn)商業(yè)化了,也是小本生意。對于一場技術(shù)革命來說,它不可能以小本生意為目標(biāo),肯定能產(chǎn)生更廣泛的影響。整體來講,我認為當(dāng)前的大模型還處于市場價值大于商業(yè)價值的階段。
南都:這個發(fā)展的過程你覺得會慢還是快?
王堅:那就得看你技術(shù)力量有多強、算力支撐有多大、投資有多少了,這些要素缺一不可,甚至沒有辦法講其中哪個因素是核心的。當(dāng)你缺哪個要素的時候,哪個要素就是最重要的。現(xiàn)在國內(nèi)200多個大模型我覺得沒有問題,大家都在一點點往上爬完成必不可少的技術(shù)積累,但肯定不是最后200個都能爬上來了,大部分中間被淘汰掉了,但總之該活的一定會活下來的。短期來看,我認為現(xiàn)在整個發(fā)展過程還和市場沒有直接的關(guān)系,因為這個領(lǐng)域的天花板還遠遠沒有碰到。大家現(xiàn)在已經(jīng)在講萬億參數(shù)的模型了,行業(yè)都覺得很興奮,你可以想想從一個模型的參數(shù)從數(shù)10億到萬億的差別。因此,這個賽道在國內(nèi)外都還遠沒有到需要收斂的程度,OpenAI那么出名,但仍然會有它的挑戰(zhàn)者出現(xiàn),大家仍然在做不同的有創(chuàng)造性的探索。
南都:你剛才也提到,我國10億參數(shù)規(guī)模以上的大模型已超過200個,怎么看待這場“百模大戰(zhàn)”?
王堅:10億參數(shù)其實不是一個大數(shù)字,目前我們主要講的都是百億級的。不過大小也都是相對的,就像剛改革開放時“萬元戶”意味著富裕,現(xiàn)在肯定不算了。這種參數(shù)規(guī)模和事物的發(fā)展周期有關(guān)系。再說到200多個的數(shù)量,我覺得這不算多,為什么——你不可能一夜暴富,憑空就做出500億參數(shù)的大模型吧?人的錢是要一分一分掙的,要把一個大模型建好,也是要一點一點積累經(jīng)驗的。
南都:我們也注意到,追趕OpenAI,對標(biāo)ChatGPT似乎是過去一年里國內(nèi)很多AI公司的最大命題。
王堅:我覺得不能簡單地說對標(biāo)ChatGPT。ChatGPT、GPT-4二者,我們要把它們區(qū)分開來——前者其實是在后者基礎(chǔ)上延伸出來的一個應(yīng)用,因此真正衡量基礎(chǔ)模型的能力應(yīng)該去對標(biāo)GPT-4。值得注意的是,GPT-4和GPT-3有一個非常大的不同,GPT-3是全開放的,大家都知道它是怎么做的,以及能做到什么程度,但到了GPT-4就不開放了,所以當(dāng)前不太好談對標(biāo)的問題。就像你高考一樣,高考成績好不見得你這個人好,但你成績不好又讀不了大學(xué)。所以在短時期內(nèi)衡量誰好誰壞是不公平的,還是要從長遠角度由市場來說明問題。可能有觀點認為,國產(chǎn)大模型的水平已經(jīng)接近GPT-4或者差一點點,但其實肯定不是差一點點,是差很多的。我想更好的辦法是由市場來證明大模型的能力,比如把模型開源出去,放到國際上去,讓市場去檢驗產(chǎn)品。
南都:當(dāng)下全球AI競爭不斷升溫,你認為在技術(shù)迭代或人才儲備等方面,中美兩個“頭號”玩家存在哪些差距?
王堅:具體來講,我個人認為我們頭部的聚集還不夠。現(xiàn)在美國還是有很明顯的大模型玩家的,而在中國并不明顯。所以最大的變量是我們這200個10億參數(shù)的大模型,什么時候能變成20個2000億的模型。在這個過程中,底層技術(shù)的演進迭代、資金投入都是非常重要的事。
南都:有觀點認為,不同國家地區(qū)在大模型或AI方面的資金投入規(guī)模也差距巨大。
王堅:對這個觀點我要提出質(zhì)疑。大模型和以前創(chuàng)業(yè)不太一樣,從前創(chuàng)業(yè)公司可以用很小的資本很快完成一次創(chuàng)業(yè),但大模型出來以后,算力投入就變成了一個極其“燒錢”的東西,到底用多少算力花多少錢,也變成了一個大家不愿意公開談及的事情。我想今天沒有任何一個人可以把具體投入的資金統(tǒng)計完整,至少我在業(yè)內(nèi)沒有看到過什么非常自信的總結(jié)。
南都:所以簡單來說,就是我們真正意義上的技術(shù)優(yōu)勢可能還沒有形成?
王堅:也不見得沒有形成優(yōu)勢,這個問題涉及很多不同因素,包括產(chǎn)業(yè)、商業(yè)策略、合作情況等等,這些問題也不是單一的投入可以解決的。從宏觀來看,國家地區(qū)之間的競爭其實是綜合科技實力的競爭,而非單項技術(shù)的競爭。至于“綜合”到什么程度?比如算力、AI、工程能力、理論研究等等,都會有所涉及。像谷歌的Gemini模型,官方發(fā)布了一篇白皮書,里面有名有姓分工署名的人就有接近800人,所以這種綜合因素的影響其實是很復(fù)雜的。這不是一個簡單的回答可以概括的,不是因為這件事情本身復(fù)雜,而是它太動態(tài)了。ChatGPT也好,GPT-4也好,AI技術(shù)也好,它們就好像處于小孩快速長身體的階段,我們是沒有辦法對處于高速發(fā)展態(tài)勢下的事物做一個對比判斷的。當(dāng)然,如果從現(xiàn)階段來看,也不需要我說太多——大家都知道我們并沒有太多的領(lǐng)先優(yōu)勢,但同時我們也有領(lǐng)先的可能。另外,我想補充的是,很多觀點都在說“現(xiàn)在人工智能全球只剩下中美兩個玩家”了,但事實上ChatGPT出來之后大約一年,歐洲又有一家名叫Mistral AI的初創(chuàng)公司異軍突起,其大模型技術(shù)也很突出。因此,全國只剩中美兩個“頭號玩家”的觀點其實不是那么準(zhǔn)確。
南都:上個月OpenAI又發(fā)布了視頻合成模型Sora,有觀點認為它可能會引發(fā)短視頻、廣告、游戲等行業(yè)格局的重塑。你怎么看?
王堅:如果談到Sora,只說它可能會影響短視頻等行業(yè),那我覺得是對它極大的羞辱,它的意義遠超這種事情。就像是原子彈剛剛爆炸時一樣,沒有人能想到這個東西后來可以作為核電站來發(fā)電,還可以實現(xiàn)小型化,還有很多別的用處。如果只是把原子能技術(shù)當(dāng)作原子彈用,那就是大大低估了這個技術(shù)的重要性。值得關(guān)注的是,Sora事實在解決世界上最復(fù)雜的一件事——真實世界的視覺問題,視頻是它的表現(xiàn)手段。它真正的意義在于靠技術(shù)已經(jīng)能夠生成像這個自然界一樣復(fù)雜,有細節(jié)的視頻或者圖像。如果能創(chuàng)造視頻,它也就能創(chuàng)造世界。
南都:那這種超強的偽造能力會不會引發(fā)大家對于虛假信息的一些擔(dān)憂?
王堅:其實“偽造”這個詞不對。什么叫偽造?你拿了一個假的東西告訴別人這是真的,這就叫偽造,而通過技術(shù)生成一段逼真的視頻,如果符合真實世界的規(guī)律,它就不是偽造。我們也不說技術(shù)是不是中立的,只是說技術(shù)有了這樣一種能力,只有用這種技術(shù)能力去行騙,才是真正的造假。而現(xiàn)在我們面臨的主要問題是,技術(shù)到了這個程度,卻不知道拿它來干什么。
南都:在高算力需求的大模型時代,怎么看待云計算?
王堅:我們在AI時代常說使用幾萬張顯卡訓(xùn)練一個大模型,當(dāng)有這么大規(guī)模的時候,其實就是云計算,只不過是看你這個云計算是想做一個有體系的、可以真正提供大規(guī)模服務(wù)的,還是自己搞搞。就在月初,美國商務(wù)部也表示不允許中國的企業(yè)用美國的云服務(wù)做大模型訓(xùn)練,種種情況都說明云計算服務(wù)在AI時代,或者說大模型在AI時代就是非常重要的。
南都:那么云計算是否有望解決當(dāng)前的算力困境?
王堅:這其實是個很復(fù)雜的事情。GPT-3時期的時候OpenAI公布說,大概用了1萬塊英偉達A100(一種AI芯片)進行訓(xùn)練。但像亞馬遜這樣的云服務(wù)運營商,除了A100還用了H800的卡,總共大概有3000E(1E約等于1000PFlops-day)的算力。在過去的三個月里,按照官方的預(yù)測,每個季度會增加1000E的算力。與我們現(xiàn)有的算力對比一下,GPU的大規(guī)模使用,讓云計算提供的算力會有百萬倍的增長。到了GPT-4,就已經(jīng)不公開其所需的算力了。不過,行業(yè)里大家都會有一個共識,就是只要做到這個規(guī)模就能猜出個大概。比如通義千問開源的是720億參數(shù)的模型,那大家就都能猜到這背后有多少算力在支撐。
南都:2024年是我國正式全功能接入國際互聯(lián)網(wǎng)30周年。回顧這段時間,你覺得有哪些重要的節(jié)點值得記錄?
王堅:我們今天所有看到的東西都是互聯(lián)網(wǎng)發(fā)展的結(jié)果。我舉個最簡單的例子——數(shù)據(jù)。你試想一下,沒有今天的互聯(lián)網(wǎng),我們會不會產(chǎn)生那么龐大的數(shù)據(jù)?不會的。二三十年前很多人說,互聯(lián)網(wǎng)是一臺巨型計算機,第一代互聯(lián)網(wǎng)把所有PC連在一起,第二代互聯(lián)網(wǎng)則是把手機聯(lián)系在一起,那如今就是人工智能把所有的數(shù)據(jù)聯(lián)系在一起。所以我覺得互聯(lián)網(wǎng)在整個社會發(fā)展過程中起著一個主軸作用,看似太過基礎(chǔ),好像可以忽略不計,但你把它抽掉,整體也就坍塌了。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn