螞蟻集團(tuán)聯(lián)合北京大學(xué)發(fā)布大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)
11月2日消息,螞蟻集團(tuán)聯(lián)合北京大學(xué)發(fā)布了首個(gè)面向DevOps領(lǐng)域的大模型評(píng)測(cè)基準(zhǔn)DevOps-Eval,以幫助開(kāi)發(fā)者跟蹤DevOps領(lǐng)域大模型的進(jìn)展,并了解各個(gè)DevOps領(lǐng)域大模型的優(yōu)勢(shì)與不足。
據(jù)了解,大語(yǔ)言模型在各類NLP下游任務(wù)上取得了顯著進(jìn)展。然而在DevOps領(lǐng)域,由于缺乏專門(mén)用于大型語(yǔ)言模型的評(píng)測(cè)基準(zhǔn),在有效評(píng)估和比較該領(lǐng)域大語(yǔ)言模型的能力方面存在嚴(yán)重不足,而DevOps-Eval的發(fā)布正是為解決這一不足。
圖源:CodeFuse公眾號(hào)
DevOps-Eval根據(jù)DevOps全流程進(jìn)行劃分,包含計(jì)劃、編碼、構(gòu)建、測(cè)試、發(fā)布、部署、運(yùn)維和監(jiān)控這8個(gè)類別,包含4850道選擇題。此外,DevOps-Eval還特別對(duì)運(yùn)維/監(jiān)控類別做了細(xì)分,添加日志解析、時(shí)序異常檢測(cè)、時(shí)序分類和根因分析等常見(jiàn)的AIOps任務(wù)。由于DevOps-Eval根據(jù)場(chǎng)景對(duì)評(píng)測(cè)樣本做了詳盡的細(xì)分,因此除了DevOps領(lǐng)域大模型,也方便對(duì)特定領(lǐng)域大模型進(jìn)行評(píng)測(cè),如AIOps領(lǐng)域等。
目前,第一期的評(píng)測(cè)榜單已經(jīng),首批評(píng)測(cè)大模型包含OpsGpt、Qwen、Baichuan、Internlm等開(kāi)源大語(yǔ)言模型。
螞蟻集團(tuán)表示,DevOps-Eval相關(guān)論文也在緊鑼密鼓地撰寫(xiě)中。此外,螞蟻集團(tuán)稱,“歡迎相關(guān)從業(yè)者一起來(lái)共建DevOps-Eval項(xiàng)目,持續(xù)豐富DevOps領(lǐng)域評(píng)測(cè)題目或大模型,我們也會(huì)定期更新題庫(kù)和評(píng)測(cè)榜單?!?/p>
數(shù)據(jù)細(xì)分類別 圖源:CodeFuse公眾號(hào)
據(jù)了解,9月8日,螞蟻集團(tuán)在外灘大會(huì)上首次公開(kāi)螞蟻金融大模型“1+1+2”矩陣:一個(gè)金融大模型,一個(gè)Fin-Eval金融AI任務(wù)評(píng)測(cè)集,個(gè)人金融助理支小寶2.0和專家業(yè)務(wù)助理支小助。
其中,螞蟻金融大模型基于螞蟻?zhàn)匝谢A(chǔ)大模型,針對(duì)金融產(chǎn)業(yè)深度定制,底層算力集群達(dá)到萬(wàn)卡規(guī)模。螞蟻金融大模型聚焦真實(shí)的金融場(chǎng)景需求,在“認(rèn)知、生成、專業(yè)知識(shí)、專業(yè)邏輯、合規(guī)性”五大維度28類金融專屬任務(wù)中表現(xiàn)突出,目前已在螞蟻集團(tuán)的財(cái)富、保險(xiǎn)平臺(tái)上全面內(nèi)測(cè)。
圖源:螞蟻集團(tuán)公眾號(hào)
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn