“識典古籍”來了!三年將上線一萬種儒釋道經典
中國青(qing)年(nian)(nian)報客戶端訊(xun)(中青(qing)報·中青(qing)網(wang)記者 沈(shen)杰群)10月11日,由“北(bei)京(jing)大學(xue)—字(zi)節跳動數字(zi)人文開(kai)放實驗室”研發的(de)古(gu)籍(ji)數字(zi)化平臺“識典(dian)(dian)古(gu)籍(ji)”測試版(ban)正(zheng)式上線。目(mu)前,該平臺涵(han)蓋390部(bu)經典(dian)(dian)古(gu)籍(ji),主要來(lai)自《四(si)部(bu)叢刊》,共計(ji)3000多(duo)萬字(zi),即日起(qi)向公眾(zhong)免費開(kai)放。未(wei)來(lai)三年(nian)(nian),“識典(dian)(dian)古(gu)籍(ji)”將陸續完成一萬種古(gu)籍(ji)的(de)智(zhi)能(neng)化整理工作,基(ji)本覆蓋儒(ru)家(jia)、道家(jia)和佛學(xue)的(de)核心典(dian)(dian)籍(ji)目(mu)錄,屆時將全部(bu)免費開(kai)放。

據了解,上(shang)述(shu)實驗室系今(jin)年3月北京(jing)大學與字(zi)節跳(tiao)動合作(zuo)成(cheng)立(li),將(jiang)人工(gong)智能(neng)技術應(ying)用于古籍資(zi)源的智能(neng)化整(zheng)理。“識典古籍”平臺(tai)上(shang)線,即(ji)是雙方合作(zuo)的最新進展。
當(dang)前(qian),中國的(de)古(gu)(gu)籍(ji)(ji)(ji)數(shu)字化面臨技術(shu)難(nan)度高、資金缺口大(da)、人(ren)(ren)(ren)才緊張等難(nan)點(dian)。相關(guan)資料顯示,現存(cun)的(de)20多萬(wan)(wan)種(zhong)古(gu)(gu)籍(ji)(ji)(ji)中,只有8萬(wan)(wan)種(zhong)完成(cheng)影像數(shu)字化掃描,近4萬(wan)(wan)種(zhong)完成(cheng)文(wen)本(ben)數(shu)字化。據(ju)專家統計,從1949年到2019年,國內(nei)共修(xiu)復整理(li)(li)出(chu)版古(gu)(gu)籍(ji)(ji)(ji)近3.8萬(wan)(wan)種(zhong),要(yao)將(jiang)現存(cun)古(gu)(gu)籍(ji)(ji)(ji)全部修(xiu)復整理(li)(li)出(chu)來,可能(neng)需要(yao)300年時間;若利用人(ren)(ren)(ren)工智能(neng)技術(shu)輔(fu)助(zhu)修(xiu)復整理(li)(li),大(da)概二三(san)十年就能(neng)完成(cheng)。據(ju)“識(shi)(shi)典古(gu)(gu)籍(ji)(ji)(ji)”項目負責人(ren)(ren)(ren)介紹(shao),該平(ping)(ping)臺當(dang)前(qian)主要(yao)使用了(le)三(san)種(zhong)技術(shu),包括文(wen)字識(shi)(shi)別(bie)(bie)(bie)、自(zi)動標點(dian)和命名(ming)實(shi)體識(shi)(shi)別(bie)(bie)(bie)。文(wen)字識(shi)(shi)別(bie)(bie)(bie)技術(shu),是對古(gu)(gu)籍(ji)(ji)(ji)的(de)影印(yin)版文(wen)字進行單個切分,再進行文(wen)字識(shi)(shi)別(bie)(bie)(bie)和順序(xu)識(shi)(shi)別(bie)(bie)(bie)。自(zi)動標點(dian)技術(shu),是通過序(xu)列(lie)標注(zhu)的(de)方式(shi)對古(gu)(gu)籍(ji)(ji)(ji)自(zi)動進行標點(dian)劃分。命名(ming)實(shi)體識(shi)(shi)別(bie)(bie)(bie)技術(shu),則(ze)是通過序(xu)列(lie)標注(zhu)識(shi)(shi)別(bie)(bie)(bie)文(wen)本(ben)中的(de)人(ren)(ren)(ren)名(ming)、地名(ming)、書籍(ji)(ji)(ji)、時間、官(guan)職等信息。據(ju)悉,目前(qian)行業內(nei)OCR識(shi)(shi)別(bie)(bie)(bie)準確率平(ping)(ping)均(jun)為(wei)93%至94%,“識(shi)(shi)典古(gu)(gu)籍(ji)(ji)(ji)”的(de)準確率為(wei)96%至97%。

與其他古(gu)籍(ji)數字化平臺相比,“識典古(gu)籍(ji)”頁面(mian)簡潔(jie),瀏覽流暢,提供影印底本作(zuo)為參照,還具備主題詞(ci)檢索和繁簡體轉換功(gong)能(neng),便(bian)于(yu)專業研究人(ren)員、廣大(da)古(gu)籍(ji)愛好者使用。同時,“識典古(gu)籍(ji)”書(shu)目將持(chi)續(xu)更(geng)新,后續(xu)將上線手機(ji)移動版。
未來,“識典古(gu)籍(ji)(ji)(ji)(ji)”將向(xiang)全(quan)社會開放(fang)古(gu)籍(ji)(ji)(ji)(ji)閱讀檢(jian)索研究能力(li),還將實現(xian)全(quan)自(zi)動(dong)整理(li)校對,更(geng)高效(xiao)地實現(xian)存量古(gu)籍(ji)(ji)(ji)(ji)全(quan)部數字化。同時,平(ping)臺也鼓勵(li)擁有文(wen)(wen)獻(xian)的學者自(zi)行上(shang)傳文(wen)(wen)獻(xian),用戶甚至可參與再(zai)(zai)創(chuang)作和再(zai)(zai)闡釋,助(zhu)力(li)古(gu)籍(ji)(ji)(ji)(ji)文(wen)(wen)化傳承和研究。
(圖片由主辦方提供)
- 2022-10-14歷時25年完成“中華儒學第一藏” 川大版《儒藏》最后203冊即將發布
- 2022-10-13《2021—2035年國家古籍工作規劃》公布實施
- 2022-10-122022年9月“中國好書”榜單發布
- 2022-10-12第35屆北京圖書訂貨會將于12月舉辦
西北角(jiao)
中(zhong)國(guo)甘肅網微信
微博甘肅
學習強國
今(jin)日頭條號




