字節(jié)和北大合作研發(fā)識(shí)典古籍官網(wǎng) 現(xiàn)已上線685部古籍
2月24日消息,在字節(jié)跳動(dòng)與北京大學(xué)的合作之下,識(shí)典古籍官網(wǎng)現(xiàn)已上線了685部古籍,包括雙方參與設(shè)計(jì)與研發(fā)的《永樂大典》高清影像數(shù)據(jù)庫,用戶可以登錄官網(wǎng)或者在今日頭條古籍頻道查看已上線古籍。
據(jù)了解,古籍?dāng)?shù)字化業(yè)務(wù)的研發(fā)復(fù)雜度很高,例如古籍的格式里,大字是正文,小字是注解,單獨(dú)一列的大字是標(biāo)題。
為了把這些復(fù)雜的結(jié)構(gòu)區(qū)分開,字節(jié)方面定義了一套古籍的元數(shù)據(jù)協(xié)議。字節(jié)團(tuán)隊(duì)將一頁一頁的古籍變成了結(jié)構(gòu)化的數(shù)據(jù),可以滿足行業(yè)通用的 TEI(Text Encoding Initiative)元數(shù)據(jù)標(biāo)準(zhǔn),能區(qū)分章節(jié)、標(biāo)題、內(nèi)文,方便搜索、翻看,而且還能進(jìn)一步編輯整理。
(圖源:識(shí)典古籍官網(wǎng))
借助飛書文檔提供的SDK,字節(jié)已經(jīng)為合作方北大的專家學(xué)者們提供了古籍整理平臺(tái),便于精?,F(xiàn)有古籍、增加新的書目。
識(shí)典古籍是由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái),該平臺(tái)于2022年10月正式上線測(cè)試版,并向公眾免費(fèi)開放。
未來三年,“識(shí)典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開放。
“識(shí)典古籍”項(xiàng)目負(fù)責(zé)人介紹,該平臺(tái)當(dāng)前主要使用了三種技術(shù),包括文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別。目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%,“識(shí)典古籍”的準(zhǔn)確率為96%至97%。
(圖源:字節(jié)跳動(dòng)技術(shù)范兒公眾號(hào))
值得一提的是,日前,36氪報(bào)道稱,字節(jié)跳動(dòng)在大模型上已有所布局,分別在語言和圖像兩種模態(tài)上發(fā)力。字節(jié)跳動(dòng)相關(guān)技術(shù)負(fù)責(zé)人對(duì)此回應(yīng):技術(shù)中臺(tái)在這些領(lǐng)域有探索,還很初期,不成熟。
一名知情人士透露,語言大模型團(tuán)隊(duì)由字節(jié)搜索部門牽頭,目前團(tuán)隊(duì)規(guī)模在十?dāng)?shù)人左右。圖片大模型團(tuán)隊(duì)則由產(chǎn)品研發(fā)與工程架構(gòu)部下屬的智能創(chuàng)作團(tuán)隊(duì)牽頭。
另有知情人士表示,字節(jié)跳動(dòng)語言大模型團(tuán)隊(duì)在今年組建,探索方向主要為與搜索、廣告等下游業(yè)務(wù)的結(jié)合,“搜索業(yè)務(wù)部門、AI Lab和AML(應(yīng)用機(jī)器學(xué)習(xí))團(tuán)隊(duì)都調(diào)了一部分人支援語言大模型,團(tuán)隊(duì)目前的預(yù)期是在今年年中推出大模型”。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn