訊飛星火超越ChatGPT,拿下八個(gè)第一
“國(guó)內(nèi)大模型的時(shí)代正在到來(lái)?!?/span>
訊飛星火全面對(duì)標(biāo)GPT-4 Turbo
6月27號(hào),科大訊飛正式發(fā)布訊飛星火大模型V4.0,并展示了其在醫(yī)療、教育、商業(yè)等多個(gè)領(lǐng)域的人工智能應(yīng)用。
據(jù)介紹,訊飛星火V4.0七大核心能力全面升級(jí),不僅在8個(gè)國(guó)際主流測(cè)試集中排名第一,領(lǐng)先國(guó)內(nèi)大模型,并在文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力等方面實(shí)現(xiàn)了對(duì)GPT-4 Turbo的整體超越。
什么叫整體超越,就是星火V4.0比Chat GPT4 Turbo的每一項(xiàng)能力都好嗎?并不是。
大模型的衡量標(biāo)準(zhǔn)以及功能較多,并不能簡(jiǎn)單下定論。
首先我們要明確訊飛星火是中國(guó)第一個(gè)基于國(guó)產(chǎn)算力訓(xùn)練出來(lái)的全民開(kāi)放的大模型。
什么是全民開(kāi)放大模型?就是國(guó)家網(wǎng)信辦等八個(gè)部委聯(lián)合認(rèn)證,用戶可以隨時(shí)下載使用的大模型。當(dāng)時(shí)是唯一的,直到訊飛星火V4.0發(fā)布還是唯一的。
在全國(guó)產(chǎn)算力平臺(tái)上訓(xùn)練的大模型,所有算法都是自主可控的,每一行碼、每一個(gè)數(shù)據(jù)都是訊飛自己編寫(xiě)、自己清洗出來(lái)的大模型。
一定程度上,今天星火大模型V4.0的發(fā)布對(duì)完全自主可控的大模型究竟走到了什么樣的發(fā)展階段,具有非常重要的標(biāo)志意義。
那么在這個(gè)基礎(chǔ)上,訊飛星火V4.0到底到了什么水平?
正如前文所提,訊飛星火V4.0已經(jīng)實(shí)現(xiàn)了(大家公認(rèn)最好的通用認(rèn)知大模型)GPT-4 Turbo的對(duì)標(biāo),在文本生成、語(yǔ)言理解、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)這些能力上都已經(jīng)實(shí)現(xiàn)超越,在代碼和多模態(tài)能力上還有差距。從整體看來(lái),大部分能力都是超越了GPT-4 Turbo的。

圖源:科大訊飛官方公眾號(hào)
雖然代碼能力和多模態(tài)能力暫時(shí)與GPT-4 Turbo有一定差距,但是多模態(tài)有一個(gè)非常重要的應(yīng)用,就是圖文識(shí)別。
無(wú)論是醫(yī)療領(lǐng)域,能不能看懂電子病歷、看懂體檢報(bào)告;還是教育領(lǐng)域,能不能看懂筆記、看懂考卷;以及在司法、金融、科研、辦公等各個(gè)領(lǐng)域的應(yīng)用,圖文識(shí)別能力都是至關(guān)重要的。
而科大訊飛的圖文大模型以及星火大模型中的圖文能力,在國(guó)際上現(xiàn)在也是先進(jìn)的。
訊飛將星火V4.0與GPT-4o做了對(duì)比,因?yàn)镚PT-4o在多模態(tài)方面,特別是圖文上面比GPT-4 Turbo要強(qiáng)。結(jié)果證明,與5月14日OpenAI發(fā)布的GPT-4o最新版本相比,各個(gè)專(zhuān)門(mén)領(lǐng)域訊飛星火V4.0的效果都比它好。

圖源:科大訊飛官方公眾號(hào)
在中文領(lǐng)域,訊飛星火V4.0實(shí)現(xiàn)了對(duì)標(biāo)GPT-4 Turbo,那么在英文領(lǐng)域怎么樣?
訊飛也公布了國(guó)際各種主流機(jī)構(gòu)給出來(lái)的,最主流的中英文測(cè)試集的結(jié)果。
測(cè)試集中絕大部分是英文,中間有理解推理、綜合考試、數(shù)學(xué)科學(xué)和代碼等維度的測(cè)試。可以看到,一共12項(xiàng)主流測(cè)試集,絕大部分是英文的,訊飛星火V4.0有8項(xiàng)實(shí)現(xiàn)了超越。

圖源:科大訊飛官方公眾號(hào)
很顯然,訊飛星火已經(jīng)全面對(duì)標(biāo)了GPT-4 Turbo,并且在整體上已經(jīng)超越了GPT-4 Turbo。
星火V4.0的能力和應(yīng)用
在發(fā)布現(xiàn)場(chǎng),科大訊飛董事長(zhǎng)劉慶峰和研究院院長(zhǎng)劉聰一個(gè)發(fā)表演講,一個(gè)真機(jī)實(shí)測(cè),向廣大個(gè)人用戶和企業(yè)用戶回答了兩個(gè)問(wèn)題:
今天,中國(guó)的大模型底座能力到底怎么樣?今天,風(fēng)起云涌的大模型究竟如何應(yīng)用落地?
我們首先來(lái)看第一個(gè)問(wèn)題。
早在去年10月17日,英偉達(dá)因?yàn)槊绹?guó)商務(wù)部的要求,對(duì)中國(guó)所有能訓(xùn)練大模型的智能算力全面斷供。而就在今年的6月25日,OpenAI也正式通知將從7月9日開(kāi)始終止所有來(lái)自中國(guó)的API申請(qǐng)。
在這樣的背景下,國(guó)內(nèi)大模型的底座能力就十分重要了。底座能力強(qiáng),便能接住這波“潑天的富貴”;底座能力差,就會(huì)被這股浪潮淹沒(méi)。
新升級(jí)的訊飛星火V4.0很顯然是擁有比較強(qiáng)勁的底座能力的。
在談到訊飛星火V4.0的底座能力之前,我們可以先來(lái)明晰一下什么叫大模型的底座能力。
大模型底座能力是指為大模型應(yīng)用提供基礎(chǔ)支撐和開(kāi)發(fā)環(huán)境的一系列技術(shù)和服務(wù)。它包括了多個(gè)關(guān)鍵組件和功能,旨在簡(jiǎn)化和加速大模型的開(kāi)發(fā)和應(yīng)用過(guò)程。
大模型底座能力的核心組成部分有資源服務(wù)層、模型服務(wù)層、知識(shí)服務(wù)層、應(yīng)用開(kāi)發(fā)層、業(yè)務(wù)中樞層、并行策略和訓(xùn)練優(yōu)化、端到端自適應(yīng)訓(xùn)練等。通過(guò)這些能力,大模型底座能夠顯著降低大模型應(yīng)用的開(kāi)發(fā)成本,提高開(kāi)發(fā)效率,并加速其在各個(gè)行業(yè)中的智能應(yīng)用落地。
簡(jiǎn)單來(lái)說(shuō),就是大模型的知識(shí)儲(chǔ)備量、各類(lèi)問(wèn)題處理能力以及在許多設(shè)備上同時(shí)進(jìn)行運(yùn)行、處理和創(chuàng)作的水平。
為了說(shuō)明星火V4.0的底座能力,劉慶峰給用戶講解了星火V4.0做到的兩個(gè)任務(wù)。
一個(gè)是星火創(chuàng)作的高考語(yǔ)文作文。
作文發(fā)表在“重慶日?qǐng)?bào)新重慶客戶端”,是6月7日12:10星火大模型創(chuàng)作的。
這篇作文不僅在人工智能圈一個(gè)大佬云集的微信群里,被大家專(zhuān)門(mén)拿出來(lái)作為一個(gè)經(jīng)典案例點(diǎn)贊,而且很好地運(yùn)用了排比、引用、論證等寫(xiě)作手法。當(dāng)時(shí)有很多人給了評(píng)分,在滿分是60分的情況下,最低的給了52分。
這足以說(shuō)明星火V4.0的知識(shí)儲(chǔ)備豐富、邏輯清晰,語(yǔ)言水平高。

圖源:科大訊飛官方公眾號(hào)
另一個(gè)是星火在科研上與專(zhuān)家團(tuán)隊(duì)合作產(chǎn)出的論文和成果。
星火和中國(guó)科學(xué)技術(shù)大學(xué)生命學(xué)院劉海燕教授團(tuán)隊(duì)的合作,用大模型中基于條件擴(kuò)散模型的蛋白質(zhì)主鏈設(shè)計(jì)算法SCUBA-D,能夠從頭生成自然界不存在的蛋白質(zhì),并且這個(gè)蛋白質(zhì)已經(jīng)應(yīng)用于實(shí)踐了。研究的文章也已經(jīng)被《Nature》收錄了。
這就清晰反映出了星火的創(chuàng)作能力以及其對(duì)科技的賦能加成。

圖源:科大訊飛官方公眾號(hào)
再來(lái)看第二個(gè)問(wèn)題。
大模型該如何應(yīng)用落地?也就是說(shuō)我們要讓大模型落到實(shí)處,變得真正有用。那對(duì)誰(shuí)有用呢?
首先一定是廣大的個(gè)人用戶們。星火V4.0就是廣大用戶的日常生活、工作、學(xué)習(xí)的助手。
其次就是廣大企業(yè)用戶,通過(guò)大模型強(qiáng)大的計(jì)算、語(yǔ)言等能力,不僅可以提高企業(yè)的工作效率,也可以減少企業(yè)的用人成本。
在針對(duì)個(gè)人用戶的日常使用方面,星火V4.0讓AI從通用助手變成了懂用戶的助手。
訊飛在星火V4.0的app中增加了“個(gè)人空間”,讓用戶的文章寫(xiě)得更有個(gè)人特點(diǎn),有人設(shè)。用戶也可以自己存放自己的學(xué)習(xí)、工作、生活與健康等相關(guān)內(nèi)容,從而使得它更加個(gè)性化,更加具備自己的專(zhuān)業(yè)知識(shí)。

圖源:科大訊飛官方公眾號(hào)
與此同時(shí),訊飛星火還將用戶使用多的、實(shí)用性強(qiáng)的醫(yī)療助手、學(xué)習(xí)口語(yǔ)的英語(yǔ)聽(tīng)說(shuō)助手,數(shù)學(xué)解題、代碼等這些功能全部都放在一起,做了非常方便快捷、可以調(diào)用的智能體。
針對(duì)企業(yè)用戶,訊飛也打造了企業(yè)專(zhuān)屬的大模型。

圖源:科大訊飛官方公眾號(hào)
這些足以說(shuō)明,星火V4.0并不是一個(gè)只能看不能用的“花架子”。
競(jìng)爭(zhēng)激烈的國(guó)內(nèi)AI大模型
除了科大訊飛,國(guó)內(nèi)還有許多公司都盯緊了AI大模型這片藍(lán)海。
百度、阿里巴巴、華為、騰訊、月之暗面(kimi-ai的開(kāi)發(fā)公司)和智譜AI(智譜清言的開(kāi)發(fā)公司)等企業(yè)都各有所長(zhǎng)。
百度的文心大模型以其產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)特性在行業(yè)中占據(jù)優(yōu)勢(shì),通過(guò)整合海量數(shù)據(jù)和知識(shí)圖譜,百度強(qiáng)化了模型的理解和推理能力。此外,其飛槳深度學(xué)習(xí)平臺(tái)為大模型提供了從開(kāi)發(fā)到部署的全流程支持,有效降低了AI技術(shù)的應(yīng)用門(mén)檻。
阿里巴巴的通義大模型系列,覆蓋了廣泛的應(yīng)用領(lǐng)域。其大模型在電商、醫(yī)療、法律、金融等行業(yè)的深入應(yīng)用,是其他大模型目前難以企及的。
華為云推出的盤(pán)古大模型,以其全棧式AI解決方案在行業(yè)中獨(dú)樹(shù)一幟。盤(pán)古大模型結(jié)合了華為的昇騰AI處理器和MindSpore計(jì)算框架,提供了從基礎(chǔ)模型到行業(yè)應(yīng)用的全鏈條支持。
華為在算力和軟硬件協(xié)同優(yōu)化方面具有明顯優(yōu)勢(shì),推動(dòng)了AI大模型的商業(yè)化落地。
騰訊的混元AI大模型則通過(guò)其HCC高性能計(jì)算集群提供底層支持,覆蓋了NLP、CV、多模態(tài)等領(lǐng)域。
騰訊在社交、游戲等擁有龐大用戶基礎(chǔ)的領(lǐng)域,利用豐富的數(shù)據(jù)資源和場(chǎng)景優(yōu)勢(shì),推動(dòng)了大模型的快速迭代和應(yīng)用創(chuàng)新。
月之暗面的Kimi智能助手集成了多語(yǔ)言對(duì)話、文件處理和搜索能力,也逐漸進(jìn)入大眾視野。
智譜AI以其快速迭代和對(duì)話大模型的研發(fā)能力在行業(yè)中嶄露頭角。智譜清言也受到了廣大用戶的肯定。
隨著人工智能時(shí)代的到來(lái),AI大模型會(huì)在我們的日常生活中越來(lái)越常見(jiàn)。但正如劉慶峰說(shuō)的:“每一次人類(lèi)文明進(jìn)步的背后都有一個(gè)了不起的助手,每一代助手都有它的使命。”
AI大模型的使命就是服務(wù)于我們的生活。因此,國(guó)內(nèi)的AI大模型不管如何競(jìng)爭(zhēng),最后的落腳點(diǎn)都只能是——讓科技便利生活。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn
