字節(jié)和北大合作研發(fā)識(shí)典古籍官網(wǎng) 現(xiàn)已上線685部古籍

李伊
2023-02-24 11:49

2月24日消息,在字節(jié)跳動(dòng)與北京大學(xué)的合作之下,識(shí)典古籍官網(wǎng)現(xiàn)已上線了685部古籍,包括雙方參與設(shè)計(jì)與研發(fā)的《永樂大典》高清影像數(shù)據(jù)庫,用戶可以登錄官網(wǎng)或者在今日頭條古籍頻道查看已上線古籍。

據(jù)了解,古籍?dāng)?shù)字化業(yè)務(wù)的研發(fā)復(fù)雜度很高,例如古籍的格式里,大字是正文,小字是注解,單獨(dú)一列的大字是標(biāo)題。

為了把這些復(fù)雜的結(jié)構(gòu)區(qū)分開,字節(jié)方面定義了一套古籍的元數(shù)據(jù)協(xié)議。字節(jié)團(tuán)隊(duì)將一頁一頁的古籍變成了結(jié)構(gòu)化的數(shù)據(jù),可以滿足行業(yè)通用的 TEI(Text Encoding Initiative)元數(shù)據(jù)標(biāo)準(zhǔn),能區(qū)分章節(jié)、標(biāo)題、內(nèi)文,方便搜索、翻看,而且還能進(jìn)一步編輯整理。

format-jpg

(圖源:識(shí)典古籍官網(wǎng))

借助飛書文檔提供的SDK,字節(jié)已經(jīng)為合作方北大的專家學(xué)者們提供了古籍整理平臺(tái),便于精?,F(xiàn)有古籍、增加新的書目。

識(shí)典古籍是由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái),該平臺(tái)于2022年10月正式上線測(cè)試版,并向公眾免費(fèi)開放。

未來三年,“識(shí)典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開放。

“識(shí)典古籍”項(xiàng)目負(fù)責(zé)人介紹,該平臺(tái)當(dāng)前主要使用了三種技術(shù),包括文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別。目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%,“識(shí)典古籍”的準(zhǔn)確率為96%至97%。

format-jpg

(圖源:字節(jié)跳動(dòng)技術(shù)范兒公眾號(hào))

值得一提的是,日前,36氪報(bào)道稱,字節(jié)跳動(dòng)在大模型上已有所布局,分別在語言和圖像兩種模態(tài)上發(fā)力。字節(jié)跳動(dòng)相關(guān)技術(shù)負(fù)責(zé)人對(duì)此回應(yīng):技術(shù)中臺(tái)在這些領(lǐng)域有探索,還很初期,不成熟。

一名知情人士透露,語言大模型團(tuán)隊(duì)由字節(jié)搜索部門牽頭,目前團(tuán)隊(duì)規(guī)模在十?dāng)?shù)人左右。圖片大模型團(tuán)隊(duì)則由產(chǎn)品研發(fā)與工程架構(gòu)部下屬的智能創(chuàng)作團(tuán)隊(duì)牽頭。

另有知情人士表示,字節(jié)跳動(dòng)語言大模型團(tuán)隊(duì)在今年組建,探索方向主要為與搜索、廣告等下游業(yè)務(wù)的結(jié)合,“搜索業(yè)務(wù)部門、AI Lab和AML(應(yīng)用機(jī)器學(xué)習(xí))團(tuán)隊(duì)都調(diào)了一部分人支援語言大模型,團(tuán)隊(duì)目前的預(yù)期是在今年年中推出大模型”。

format-jpg

1、該內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電商報(bào)觀點(diǎn)或立場(chǎng),文章為作者本人上傳,版權(quán)歸原作者所有,未經(jīng)允許不得轉(zhuǎn)載。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn
相關(guān)閱讀
10月11日消息,由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍數(shù)字化平臺(tái)“識(shí)古籍”測(cè)試版正式上線。上述實(shí)驗(yàn)室系今年3月北京大學(xué)與字節(jié)跳動(dòng)合作成立,將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理?!?em>識(shí)古籍”平臺(tái)上線,即是雙方合作的最新進(jìn)展。同時(shí),“識(shí)古籍”書目將持續(xù)更新,后續(xù)將上線手機(jī)移動(dòng)版。
3月18日消息,近日,字節(jié)跳動(dòng)向北大教育基金提供捐贈(zèng),全面支持“北京大學(xué)-字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”的工作,研發(fā)古籍數(shù)字化平臺(tái),搭建一座古籍“智能化數(shù)字圖書館”。字節(jié)跳動(dòng)北大合作搭建開放、共享、高質(zhì)量的古籍數(shù)字化平臺(tái),在保護(hù)整理中華文化資源的同時(shí),推動(dòng)這些資源向大眾開放。該平臺(tái)可以是讀者的數(shù)字化古籍閱讀工具,也可以是學(xué)者、愛好者的一站式古籍數(shù)字化智能整理平臺(tái)。
由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍數(shù)字化平臺(tái)“識(shí)古籍”測(cè)試版正式上線。
4月15日消息,北京時(shí)間4月15日上午8點(diǎn),2024阿里巴巴全球數(shù)學(xué)競(jìng)賽預(yù)選賽正式交卷。阿里巴巴全球數(shù)學(xué)競(jìng)賽組委會(huì)介紹,2024年起,阿里巴巴全球數(shù)學(xué)競(jìng)賽決定向AI開放,鼓勵(lì)探索AI的潛力上限,推動(dòng)AI在數(shù)學(xué)領(lǐng)域的研究應(yīng)用創(chuàng)新。AI挑戰(zhàn)賽吸引了全球563支隊(duì)伍踴躍報(bào)名,主要來自全球知名高校院所與企業(yè),包括北大、清華、牛津、中國(guó)科學(xué)院、AWS、字節(jié)跳動(dòng)等。
北京大學(xué)-字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室將研發(fā)古籍數(shù)字化平臺(tái),搭建古籍“智能化數(shù)字圖書館”。
張一鳴很煩惱。
12月18日消息,在火山引擎Force大會(huì)上,字節(jié)跳動(dòng)正式發(fā)布豆包視覺理解模型,為企業(yè)提供極具性價(jià)比的多模態(tài)大模型能力。豆包視覺理解模型千tokens輸入價(jià)格僅為3厘,一元錢就可處理284張720P的圖片,比行業(yè)價(jià)格便宜85%,以更低成本推動(dòng)AI技術(shù)普惠應(yīng)用發(fā)展。繼大語言模型價(jià)格以厘計(jì)算之后,視覺理解模型也宣告進(jìn)入“厘時(shí)代”。
12月17日消息,針對(duì)網(wǎng)傳的豆包大模型與中興手機(jī)合作一事,豆包相關(guān)負(fù)責(zé)人回應(yīng)表示,消息不實(shí)。豆包大模型已經(jīng)許多手機(jī)有了深度合作,但并沒有中興通訊探討過成立新品牌可能性,芯片也沒有相關(guān)的合作。
    亚洲无码高清自拍偷拍自慰av网站,免费高清无码黄色网,欧美一级片免费在线观看,午夜毛片在线观看