阿里云通義聽悟新增自動提取PPT等三大功能
8月2日消息,阿里云通義聽悟上線三大新功能,包括國內(nèi)音視頻AI領(lǐng)域首創(chuàng)的視頻自動提取PPT,以及瀏覽器插件、釘釘和微信小程序。
截自通義大模型官網(wǎng)
今年6月,阿里云首次宣布通義聽悟開放公測。此次升級,在原有實時記錄、音視頻文件轉(zhuǎn)寫、全文概要、章節(jié)速覽等功能之上,新增“提取PPT”功能。該功能通過引入視覺AI算法,自動將PPT講解視頻分割為演示文稿,并對每頁PPT進(jìn)行要點總結(jié),形成一份圖文并茂的大綱,解決培訓(xùn)、網(wǎng)課學(xué)習(xí)等場景“求PPT難”的問題。
通義聽悟還增加了瀏覽器插件和移動端的支持。用戶開會、上網(wǎng)課、看直播、看視頻時,Chrome和Edge瀏覽器插件功能可全程錄制,并實時生成雙語字幕,幫助用戶更輕松地瀏覽視頻內(nèi)容。
截自通義大模型官網(wǎng)
在移動端,通義聽悟釘釘和微信小程序不僅支持PC端的基礎(chǔ)功能,還可以一鍵轉(zhuǎn)寫手機和聊天記錄的音視頻文件。
本次新功能上線期間,阿里云繼續(xù)聯(lián)合各大平臺和社區(qū)推出定制口令碼,用戶根據(jù)口令碼可隨機抽取20h、30h、66h、88h、100h的免費轉(zhuǎn)寫時長。通義聽悟集成了阿里云的語音、語言和視覺AI技術(shù),未來還將陸續(xù)上線適用于更多場景的新功能。
據(jù)悉,阿里云自2019年啟動大模型研發(fā)以來,通義大模型逐步從單一模態(tài)真正升級為多模態(tài)大模型。今年4月,阿里云正式推出大語言模型“通義千問”,它能夠響應(yīng)人類以自然語言提出的指令,完成回答問題、創(chuàng)作文字、編寫代碼、角色扮演對話等各項任務(wù)。
在7月舉行的2023世界人工智能大會期間,阿里云宣布推出通義大模型家族新成員通義萬相,用戶可以在通義萬相中輸入提示詞,以輸出相應(yīng)圖像。除文生圖以外,通義萬相也推出了包括風(fēng)格遷移、相似圖生成等功能。
截自通義大模型官網(wǎng)
阿里云智能集團首席技術(shù)官周靖人在2023世界人工智能大會透露,通義千問已有累計超30的申請用戶,超過100家深度共創(chuàng)企業(yè),而通義聽悟發(fā)布首月已有36萬用戶。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn