字節(jié)跳動和北大推出古籍數(shù)字化平臺 測試版已上線

李伊
2022-10-11 19:50

10月11日消息,由“北京大學—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍數(shù)字化平臺“識典古籍”測試版正式上線。

目前,該平臺涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。

今年3月,北京大學與字節(jié)跳動合作成立了“北京大學—字節(jié)跳動數(shù)字人文開放實驗室”,致力于將人工智能技術應用于古籍資源的智能化整理。

format-jpg

“識典古籍”項目負責人介紹,該平臺當前主要使用了三種技術,包括文字識別、自動標點和命名實體識別。文字識別技術,是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。

自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別技術,則是通過序列標注識別文本中的人名、地名、書籍、時間、官職等信息。

據(jù)悉,目前行業(yè)內(nèi)OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。

format-jpg

與其他古籍數(shù)字化平臺相比,“識典古籍”具有自身的特點,頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,便于專業(yè)研究人員、廣大古籍愛好者使用。同時,“識典古籍”書目將持續(xù)更新,后續(xù)將上線手機移動版。

未來,“識典古籍”將向全社會開放古籍閱讀檢索研究能力,還將實現(xiàn)全自動整理校對,實現(xiàn)存量古籍全部數(shù)字化。同時,平臺也鼓勵擁有文獻的學者自行上傳文獻,用戶甚至可參與再創(chuàng)作和再闡釋。

format-jpg

1、該內(nèi)容為作者獨立觀點,不代表電商報觀點或立場,文章為作者本人上傳,版權歸原作者所有,未經(jīng)允許不得轉載。
2、電商號平臺僅提供信息存儲服務,如發(fā)現(xiàn)文章、圖片等侵權行為,侵權責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
相關閱讀
10月11日消息,由“北京大學—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍數(shù)字化平臺“識典古籍”測試版正式上線。上述實驗室系今年3月北京大學與字節(jié)跳動合作成立,將人工智能技術應用于古籍資源的智能化整理?!白R典古籍”平臺上線,即是雙方合作的最新進展。同時,“識典古籍”書目將持續(xù)更新,后續(xù)將上線手機移動版。
北京大學-字節(jié)跳動數(shù)字人文開放實驗室將研發(fā)古籍數(shù)字化平臺,搭建古籍“智能化數(shù)字圖書館”。
字節(jié)跳動與北京大學的合作之下,識典古籍官網(wǎng)現(xiàn)已上線了685部古籍,包括雙方參與設計與研發(fā)的《永樂大典》高清影像數(shù)據(jù)庫。
3月18日消息,近日,字節(jié)跳動北大教育基金提供捐贈,全面支持“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”的工作,研發(fā)古籍數(shù)字化平臺,搭建一座古籍“智能化數(shù)字圖書館”。字節(jié)跳動北大將合作搭建開放、共享、高質量的古籍數(shù)字化平臺,在保護整理中華文化資源的同時,推動這些資源向大眾開放。該平臺可以是讀者的數(shù)字化古籍閱讀工具,也可以是學者、愛好者的一站式古籍數(shù)字化智能整理平臺。
11月26日,字節(jié)跳動宣布,中國文物保護基金會字節(jié)跳動古籍保護專項基金定向資助修復書目已經(jīng)確定,共有105冊(件)古籍入選。
字節(jié)跳動公益宣布,字節(jié)跳動古籍保護專項基金資助修復的104冊件古籍已全部完成修復。
8月21日消息,中國文物保護基金會、國家圖書館 、字節(jié)跳動公益正式啟動第二期古籍保護與利用公益項目。字節(jié)跳動將繼續(xù)提供捐贈,支持國家圖書館、陜西省圖書館等多家圖書館開展珍貴古籍修復。
三方將通過此次為期3年的合作,開展故宮古籍搶救性保護及資源轉化利用。
    亚洲无码高清自拍偷拍自慰av网站,免费高清无码黄色网,欧美一级片免费在线观看,午夜毛片在线观看