阿里云推出大規(guī)模視覺(jué)語(yǔ)言模型Qwen-VL
8月26日消息,阿里云推出大規(guī)模視覺(jué)語(yǔ)言模型Qwen-VL,一步到位、直接開(kāi)源。
Qwen-VL以通義千問(wèn)70億參數(shù)模型Qwen-7B為基座語(yǔ)言模型研發(fā),支持圖文輸入,具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評(píng)測(cè)和多模態(tài)聊天能力評(píng)測(cè)中,Qwen-VL取得了遠(yuǎn)超同等規(guī)模通用模型的表現(xiàn)。
Qwen-VL是支持中英文等多種語(yǔ)言的視覺(jué)語(yǔ)言(Vision Language,VL)模型,相較于此前的VL模型,Qwen-VL除了具備基本的圖文識(shí)別、描述、問(wèn)答及對(duì)話能力之外,還新增了視覺(jué)定位、圖像中文字理解等能力。
(圖源阿里云公眾號(hào),下同)
多模態(tài)是通用人工智能的重要技術(shù)演進(jìn)方向之一。業(yè)界普遍認(rèn)為,從單一感官的、僅支持文本輸入的語(yǔ)言模型,到“五官全開(kāi)”的,支持文本、圖像、音頻等多種信息輸入的多模態(tài)模型,蘊(yùn)含著大模型智能躍升的巨大可能。多模態(tài)能夠提升大模型對(duì)世界的理解程度,充分拓展大模型的使用場(chǎng)景。
視覺(jué)是人類(lèi)的第一感官能力,也是研究者首先想賦予大模型的多模態(tài)能力。繼此前推出M6、OFA系列多模態(tài)模型之后,阿里云通義千問(wèn)團(tuán)隊(duì)又開(kāi)源了基于Qwen-7B的大規(guī)模視覺(jué)語(yǔ)言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL及其視覺(jué)AI助手Qwen-VL-Chat均已上線ModelScope魔搭社區(qū),開(kāi)源、免費(fèi)、可商用。
用戶(hù)可從魔搭社區(qū)直接下載模型,也可通過(guò)阿里云靈積平臺(tái)訪問(wèn)調(diào)用Qwen-VL和Qwen-VL-Chat,阿里云為用戶(hù)提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。
Qwen-VL可用于知識(shí)問(wèn)答、圖像標(biāo)題生成、圖像問(wèn)答、文檔問(wèn)答、細(xì)粒度視覺(jué)定位等場(chǎng)景。
Qwen-VL以Qwen-7B為基座語(yǔ)言模型,在模型架構(gòu)上引入視覺(jué)編碼器,使得模型支持視覺(jué)信號(hào)輸入,并通過(guò)設(shè)計(jì)訓(xùn)練過(guò)程,讓模型具備對(duì)視覺(jué)信號(hào)的細(xì)粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448,此前開(kāi)源的LVLM模型通常僅支持224分辨率。在Qwen-VL 的基礎(chǔ)上,通義千問(wèn)團(tuán)隊(duì)使用對(duì)齊機(jī)制,打造了基于LLM的視覺(jué)AI助手Qwen-VL-Chat,可讓開(kāi)發(fā)者快速搭建具備多模態(tài)能力的對(duì)話應(yīng)用。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn