精品一二三区久久aaa片,无码国产乱人伦偷精品视频,国产成人无码A片V99,精品国内自产拍在线观看视频,毛阿敏性做爰A片免费看

您當前的位置 : 中國甘肅網 >> 書香隴原 >> 要聞

科技守護文明:中國古籍“回家”之路

2021-05-24 10:51 來源(yuan):新華網(wang)

  科(ke)技守護文明:中國(guo)古(gu)籍“回(hui)家”之路(lu)

  新華社成都5月20日電(記(ji)者童芳)中(zhong)(zhong)國(guo)是世界四大文(wen)明古國(guo)之一(yi),中(zhong)(zhong)國(guo)浩(hao)如煙海的文(wen)獻(xian)典(dian)籍記(ji)錄了歷史。然而(er)遺(yi)憾的是,近代以(yi)來(lai)超過400萬冊中(zhong)(zhong)國(guo)古籍由于種種原因(yin)流散海外。

  阿里巴巴達摩(mo)院、四川(chuan)大學、美國加州(zhou)大學伯克利分校近(jin)日公布,他們(men)花費兩年多的時間(jian),教會(hui)了(le)AI識別中國古(gu)籍,將它們(men)以數字化的形式(shi)接回故土,置(zhi)于網絡公益(yi)平臺(tai),向所有人開放(fang)。

  這個(ge)項(xiang)目(mu)的(de)名字叫“漢典重(zhong)(zhong)光”,意(yi)為讓失落的(de)珍貴古(gu)籍(ji)重(zhong)(zhong)放光芒。“漢典重(zhong)(zhong)光”以97.5%的(de)準(zhun)確(que)率,識別了20萬頁古(gu)籍(ji),覆(fu)蓋3萬多字的(de)古(gu)籍(ji)字典。

  現代科技照亮中國古籍“回家”之路

  中國古籍擁有非常龐大且復雜(za)的知識體系,包括甲骨簡牘、敦煌遺書、宋(song)元善本(ben)、明清(qing)精槧、拓本(ben)輿圖、少數民族文(wen)獻等等。所涉(she)及的范圍也(ye)是極其廣泛,有應對自然災害(hai)、流行疫病、經(jing)濟波(bo)動、政治斗爭(zheng)、外交危機、氣(qi)候變遷等的經(jing)驗(yan),有戰爭(zheng)、瘟疫、地震(zhen)、洪澇災害(hai)、病蟲(chong)害(hai)等方面的經(jing)驗(yan)總(zong)結,還有醫(yi)療、中藥、養生(sheng)、家具、服飾、飲(yin)食文(wen)化等生(sheng)活經(jing)驗(yan)。

  加(jia)州大(da)學(xue)伯(bo)克(ke)利分校的(de)東亞(ya)圖(tu)書(shu)館是全美三大(da)東亞(ya)圖(tu)書(shu)館之一(yi),90萬冊藏書(shu)里四成都(dou)是中文書(shu),還有不(bu)(bu)少甲(jia)骨文和(he)拓片。第一(yi)次到這兒的(de)中國(guo)學(xue)者(zhe)總感(gan)覺在穿越歷史的(de)“蟲洞”,這些(xie)古籍(ji)不(bu)(bu)能運(yun)回(hui)中國(guo),那就用數字化手(shou)段讓古籍(ji)的(de)內容“回(hui)家”。

  2019年,阿里巴巴和四川(chuan)(chuan)大學(xue)提出“數(shu)字化(hua)回歸”設想,四川(chuan)(chuan)大學(xue)歷史(shi)文化(hua)學(xue)院副院長王(wang)果(guo)與中央文史(shi)研(yan)究館館員(yuan)陳力牽線搭橋(qiao),溝通北美、歐洲、日(ri)韓等地藏書(shu)機構,最后獲得加(jia)州大學(xue)伯(bo)克(ke)利(li)分校支持,達成共識,將伯(bo)克(ke)利(li)東亞圖書(shu)館的中文古籍善(shan)本逐步(bu)數(shu)字化(hua)。

  前所未有的挑戰

  據王果介紹(shao),“漢典重光(guang)”的(de)分工非常明確——采集側把(ba)紙質書(shu)(shu)變(bian)為(wei)影(ying)印版,數字(zi)化生產側把(ba)影(ying)印版變(bian)為(wei)文字(zi)版,應用(yong)側為(wei)文字(zi)版增加檢索(suo)、字(zi)典和知(zhi)識圖譜等研學系統(tong)。東亞圖書(shu)(shu)館完成(cheng)第一個環(huan)節后(hou),四(si)川大學將(jiang)和達摩院共(gong)同完成(cheng)另外兩個步驟(zou)。其中,四(si)川大學將(jiang)提(ti)供一切非計算層(ceng)面的(de)專業(ye)支持,并與達摩院的(de)機器視覺實(shi)驗室合作,共(gong)同開發(fa)古籍(ji)AI技術。

  首批(pi)數字化(hua)的古(gu)籍共(gong)20萬頁,包含40余種珍貴宋元善(shan)本。剛(gang)開始大(da)家對(dui)這個項(xiang)目很有信(xin)心,但實際一(yi)上手才知道難度有多大(da)。

  首(shou)先是中國古籍的(de)載體很多(duo),紙、布(bu)、竹子、木頭、甲骨、石碑……幾(ji)乎所有(you)能用的(de)載體都被古人(ren)留了字(zi),不同載體上(shang)面的(de)字(zi)識別起來差(cha)別非(fei)常(chang)(chang)(chang)大。年(nian)代久遠的(de)紙張大多(duo)殘缺不全,上(shang)面還(huan)布(bu)滿斑(ban)點,而且排列非(fei)常(chang)(chang)(chang)復(fu)雜。古人(ren)喜(xi)歡(huan)從上(shang)到(dao)(dao)下,從右到(dao)(dao)左,還(huan)非(fei)常(chang)(chang)(chang)喜(xi)歡(huan)在(zai)上(shang)面做(zuo)批注。

  字(zi)(zi)跡(ji)的精美也成了負(fu)擔。隸書(shu)(shu)、楷書(shu)(shu)、草書(shu)(shu)、行書(shu)(shu)都漂亮,但也真難認(ren)。大部分字(zi)(zi)還是手寫(xie)的,不(bu)但兩個人寫(xie)的同(tong)(tong)一(yi)個字(zi)(zi)不(bu)一(yi)樣(yang),同(tong)(tong)一(yi)個人寫(xie)的同(tong)(tong)一(yi)個字(zi)(zi)也差(cha)別很大,很多字(zi)(zi)還有不(bu)同(tong)(tong)寫(xie)法(fa)。

  團隊原有的(de)OCR(圖(tu)像文字識別)的(de)識別準確(que)率(lv)只有40%,這顯然是不(bu)夠的(de),較早涉足古籍識別的(de)Google Books(谷歌圖(tu)書)針(zhen)對(dui)的(de)都是英文古籍,對(dui)中文也不(bu)適用。

  大量創造性和創新性的辛勤勞動

  沒(mei)有(you)前車(che)可(ke)鑒,只能自己來(lai)了。“這就像(xiang)教小朋友識字(zi),確實(shi)難(nan),但(dan)也有(you)簡單(dan)的部(bu)分,我們就由易到(dao)難(nan)慢慢做。”王(wang)果說。

  前所未(wei)有的(de)開拓性成果,包含著中國學者大量創(chuang)造性和(he)創(chuang)新性的(de)辛勤勞動。

  達摩院的古(gu)籍(ji)識(shi)(shi)別算(suan)法,用AI替代(dai)人(ren)(ren)工,大(da)幅(fu)壓縮了(le)專家(jia)(jia)(jia)標注(zhu)工作量。在機器(qi)為主(zhu)進行(xing)識(shi)(shi)別的97.5%的內容(rong)中(zhong),約有1%(1萬字(zi)左右)需要專家(jia)(jia)(jia)錄(lu)入;機器(qi)不能識(shi)(shi)別的余下2.5%(2.5萬字(zi))的文字(zi),全部交給專家(jia)(jia)(jia)做后(hou)期標注(zhu)。相比人(ren)(ren)工專家(jia)(jia)(jia)錄(lu)入,百萬字(zi)書籍(ji)的數字(zi)化工作量從1000天降低到了(le)35天,效率比人(ren)(ren)工專家(jia)(jia)(jia)錄(lu)入方案提(ti)升近30倍。這種古(gu)籍(ji)識(shi)(shi)別算(suan)法,為中(zhong)華古(gu)籍(ji)的回歸(gui)提(ti)供了(le)另一種可(ke)行(xing)可(ke)期的思路。

  非(fei)計算(suan)機(ji)層面的工(gong)作也非(fei)常重要,四川大學(xue)專(zhuan)門(men)組織了30多個歷(li)史系(xi)學(xue)生來做標注,這很(hen)耗(hao)神(shen),眼(yan)力(li)、腦力(li)缺一(yi)不可,但這個過程沒法省略,就像學(xue)生要學(xue)習,算(suan)法也要迭代,“只有數據夠多夠好(hao),機(ji)器才能搞(gao)定(ding)”。

  這是一(yi)件非(fei)常難(nan)但非(fei)常有意義的事情(qing)。古(gu)籍識(shi)別的挑戰巨大,但大家還(huan)是想通過技術(shu)讓古(gu)籍活起來,用科(ke)技守護文(wen)明(ming)。

  據了解,達摩院(yuan)、四川(chuan)大(da)學、美國加州大(da)學伯(bo)克(ke)利(li)分(fen)校、中國國家圖(tu)書館、浙江圖(tu)書館將繼續投入人(ren)力(li)、物力(li),擴大(da)古籍數字化回歸的(de)數量,讓(rang)所有蒙塵的(de)古籍重煥新生。

  達摩院(yuan)院(yuan)長張建鋒表示,阿里計劃將(jiang)這(zhe)套(tao)技術工具(ju)連同古籍數(shu)字化平臺一并(bing)捐贈,交由權(quan)威公共(gong)機(ji)構長期運營,最終將(jiang)成(cheng)為一個開放的網絡平臺,供大(da)眾(zhong)檢索學習。

版權聲明:凡注有稿件來源為“中國甘肅網”的稿件,均為中國甘肅網版權稿件,轉載必須注明來源為“中國甘肅網”。

西北角西北(bei)角
中國甘肅網微信中國甘(gan)肅網微信
中國甘肅網微博中國(guo)甘肅網(wang)微博
微博甘肅微博甘肅
學習強國學習(xi)強國
今日頭條號今日頭條(tiao)號

  • 07/08
  • 07/05
  • 07/05
  • 07/02
  • 07/02

分享到