該輪到梁文鋒出手了
新一輪中美科技大戰(zhàn)迫在眉睫。
一、大模型扎堆更新,AI大戰(zhàn)風(fēng)暴將至
最近這段時(shí)間,大模型領(lǐng)域又出現(xiàn)了爆發(fā)式更新。
各大科技巨頭紛紛亮出自己的王牌,大模型的更新如同雨后春筍般涌現(xiàn),一場(chǎng)關(guān)于智能、效率和成本的較量即將拉開帷幕。
百度在上周的Create 2025大會(huì)上可謂是動(dòng)作頻頻,風(fēng)頭無兩。
百度創(chuàng)始人李彥宏高調(diào)宣布開源文心4.5系列,并毫不避諱地直指DeepSeek“慢又貴”。在他的介紹下,百度的新模型在性能和成本上才是真正實(shí)現(xiàn)了質(zhì)的飛躍。

圖源:微博
事實(shí)上,在過去的一個(gè)月中,百度已經(jīng)連續(xù)發(fā)布了多款大模型,例如文心大模型4.5 Turbo、深度思考模型X1 Turbo……
其中,文心4.5 Turbo模型在多模態(tài)基準(zhǔn)測(cè)試成績(jī)上已經(jīng)追平了DeepSeek,并且還在API調(diào)用價(jià)格方面做到了DeepSeek的40%,詳細(xì)的介紹可以去看上一篇《李彥宏炮轟DeepSeek,百度AI才是未來》。

圖源:小紅書
而就在今天凌晨,阿里巴巴緊隨其后,發(fā)布了新一代通義千問模型Qwen3。
阿里云方面宣稱,Qwen3是國內(nèi)首個(gè)“混合推理模型”,將“快思考”與“慢思考”集成進(jìn)同一個(gè)模型,參數(shù)量?jī)H為DeepSeek-R1的三分之一,但性能卻全面超越了R1以及OpenAI的o1等全球頂尖模型。這一消息無疑再次讓科技圈為之震動(dòng)。
據(jù)官方介紹,Qwen3采用了混合專家(MoE)架構(gòu),總參數(shù)量達(dá)到235B,但激活僅需22B,預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T。
通過多輪強(qiáng)化學(xué)習(xí),Qwen3將非思考模式無縫整合到思考模型中,實(shí)現(xiàn)了簡(jiǎn)單需求的低算力“秒回”和復(fù)雜問題的多步驟“深度思考”。
這種“推理/非推理”二合一的設(shè)計(jì),不僅提升了模型的智能水平,還大幅降低了算力資源消耗。

圖源:觀察者網(wǎng)
并且在性能方面,Qwen3在推理、指令遵循、工具調(diào)用、多語言能力等多個(gè)維度都創(chuàng)下了新的紀(jì)錄。
例如,在奧數(shù)水平的AIME25測(cè)評(píng)中,Qwen3斬獲81.5分,刷新了開源紀(jì)錄;在代碼能力測(cè)試中,Qwen3也表現(xiàn)不俗,突破了70分大關(guān)……
此外,如前文所說,Qwen3的部署成本極低,僅需4張H20顯卡即可部署滿血版,顯存占用僅為性能相近模型的三分之一。
阿里云還提供了豐富的模型版本,從30B到235B的MoE模型,再到0.6B到32B的密集模型,每款模型都實(shí)現(xiàn)了同尺寸開源模型的最佳性能。

圖源:觀察者網(wǎng)
與此同時(shí),OpenAI也在悄然發(fā)力。
近日,OpenAI又一次更新了GPT-4o模型,其CEO奧特曼親自介紹,更新后的GPT-4o在智力和個(gè)性方面有了顯著提升。
更新后的模型不僅優(yōu)化了記憶保存時(shí)間,還增強(qiáng)了在STEM領(lǐng)域的問題解決能力。新GPT-4o還在響應(yīng)方式上進(jìn)行了改進(jìn),能夠更主動(dòng)地引導(dǎo)對(duì)話,輸出更有效的結(jié)果。

圖源:X平臺(tái)
另一方面,根據(jù)數(shù)據(jù)顯示,目前GPT-4o在LMArena排行榜上已經(jīng)上升至第二名,而DeepSeek上一次更新的V3新模型,已經(jīng)下滑至第7名。

圖源:X平臺(tái)
種種背景的加持下,許多從業(yè)者的目光已經(jīng)不自覺地聚焦在了一個(gè)人身上——梁文鋒。
作為DeepSeek的創(chuàng)始人,梁文鋒在過去的一年中憑借多款模型在全球AI市場(chǎng)中一鳴驚人。然而,隨著國內(nèi)外科技巨頭的相繼發(fā)力,圈內(nèi)外都在期待梁文鋒的下一次出手,期待DeepSeek又將會(huì)帶來一個(gè)怎樣“驚天動(dòng)地”的更新。
從目前的消息來看,梁文鋒應(yīng)該不會(huì)讓大家失望。
二、“舊世界分崩離析,新時(shí)代正在光速到來”
在AI領(lǐng)域,梁文鋒的名字已經(jīng)成為了一個(gè)傳奇。
2025年開年,DeepSeek“燃爆”了整個(gè)AI圈,其發(fā)布的R1模型憑借超低的訓(xùn)練成本和卓越的性能,迅速在全球范圍內(nèi)引起了轟動(dòng)。
而迄今為止,距離R1模型正式發(fā)布已經(jīng)過去了整整99天,馬上就要超百日。這99天,對(duì)于DeepSeek來說,是輝煌的起點(diǎn),也是新的挑戰(zhàn)的預(yù)熱。

圖源:中國企業(yè)家雜志
2025年1月20日,DeepSeek R1大模型正式發(fā)布。而在R1發(fā)布之前,DeepSeek團(tuán)隊(duì)已經(jīng)經(jīng)歷了無數(shù)次的實(shí)驗(yàn)和優(yōu)化。梁文鋒和他的團(tuán)隊(duì)深知,要在這個(gè)競(jìng)爭(zhēng)激烈的AI市場(chǎng)中脫穎而出,必須要有獨(dú)特的優(yōu)勢(shì)和創(chuàng)新的技術(shù)。
在招人過程中,梁文鋒的團(tuán)隊(duì)展現(xiàn)了極高的標(biāo)準(zhǔn)和獨(dú)特的理念。梁文鋒對(duì)人才沒有標(biāo)簽,不論學(xué)歷背景,不論過往業(yè)績(jī),他只看這個(gè)人的個(gè)人能力和個(gè)人素質(zhì)。
這種人才觀,讓DeepSeek的團(tuán)隊(duì)成員不僅具備強(qiáng)大的技術(shù)能力,更有著對(duì)AI的熱情和創(chuàng)新精神。
梁文鋒曾經(jīng)說過:“我們招人的原則是看能力,而不是看經(jīng)驗(yàn)。如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長(zhǎng)遠(yuǎn),經(jīng)驗(yàn)就沒那么重要,基礎(chǔ)能力、創(chuàng)造性與熱愛等更重要。”
此外,梁文鋒對(duì)AI和公司的思考,也貫穿了整個(gè)R1模型的研發(fā)過程。
他認(rèn)為,語言大模型是通往通用人工智能(AGI)的關(guān)鍵路徑。因此,DeepSeek專注于基礎(chǔ)研究,而不是急于開展應(yīng)用開發(fā)。
梁文鋒堅(jiān)信,通過不斷優(yōu)化和創(chuàng)新,語言大模型可以逐步實(shí)現(xiàn)類人的人工智能。這或許也是DeepSeek如今仍在語言類大模型這條路上走到黑的原因。
但無論怎樣,隨著時(shí)間的推移,距離DeepSeek上一次推理模型的更新時(shí)間越來越長(zhǎng),外界對(duì)R2模型的期待也越來越高。

圖源:微信
此前,DeepSeek曾表示R2模型會(huì)在今年年內(nèi)推出,但否認(rèn)了前段時(shí)間宣稱5月甚至4月底會(huì)上線的傳言。盡管如此,外界對(duì)R2的期待并未減少。
許多業(yè)內(nèi)人士認(rèn)為,R2模型將是DeepSeek的又一力作,有望在性能和功能上實(shí)現(xiàn)更大的突破。
據(jù)了解,DeepSeek公司目前對(duì)外界的各種傳言采取不予理睬的態(tài)度,更多的是專注于自己的研究當(dāng)中。梁文鋒和他的團(tuán)隊(duì)深知,只有通過不斷的技術(shù)創(chuàng)新和優(yōu)化,才能在激烈的市場(chǎng)競(jìng)爭(zhēng)中保持領(lǐng)先地位。
在DeepSeek的崛起過程中,OpenAI一直是其主要競(jìng)爭(zhēng)對(duì)手之一。
然而,國外多家媒體近期卻紛紛表示,OpenAI給梁文鋒的壓力還不夠,所以梁文鋒才能一直高枕無憂地做自己的事,而不用考慮過多的去對(duì)外宣傳自己的新模型。
他們認(rèn)為,OpenAI在面對(duì)DeepSeek的快速崛起時(shí),似乎顯得有些力不從心,這種感覺美國的AI公司此前幾乎從未有過。
不過,OpenAI并未如他們口中所說的那么不堪,可能正應(yīng)了那句話“瞧不起的往往是自家人”。
實(shí)際上,OpenAI近期只是換了打法,更專注于DeepSeek從未涉及的文生圖領(lǐng)域。
目前,OpenAI的GPT-4模型在文生圖領(lǐng)域可謂是一馬當(dāng)先,其能力也得到了國外眾多用戶的驗(yàn)證,并且還能駕馭格式各樣的風(fēng)格。

圖源:ChatGPT生成圖片
隨著ChatGPT帶來更多的震撼,美國硅谷已經(jīng)出現(xiàn)一些“文生圖和文生視頻領(lǐng)域?qū)⑹俏磥鞟I發(fā)展的新方向”類似的聲音。
因此,外界同樣在期望DeepSeek文生圖、文生視頻大模型的出現(xiàn)。但這個(gè)愿望可能不太容易被實(shí)現(xiàn)。
梁文鋒曾經(jīng)表示:“我們不會(huì)過早設(shè)計(jì)基于模型的一些應(yīng)用,會(huì)專注在大模型上。從長(zhǎng)期看,大模型應(yīng)用門檻會(huì)越來越低,初創(chuàng)公司在未來20年任何時(shí)候下場(chǎng),也都有機(jī)會(huì)?!?/span>
如今,擺在梁文鋒面前的現(xiàn)實(shí)是,美國政府正在限制英偉達(dá)H20芯片等高端芯片向中國出口,而這正是絕大部分AI公司發(fā)展的“地基”。
此外,伴隨著關(guān)稅政策不斷變化,貿(mào)易全球化的大勢(shì)正在遭受美國單方面的削弱,這也很可能增加DeepSeek團(tuán)隊(duì)的研發(fā)成本。
因此,在重重壓力的考驗(yàn)下,聚光燈下的梁文鋒能否帶領(lǐng)團(tuán)隊(duì)沖破枷鎖,讓中國AI再次對(duì)世界發(fā)出震耳欲聾的咆哮,成為了國內(nèi)外不少人心中的掛念。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn