甘肅省研究團隊填補空白 首個簡牘字符檢測與識別大規模數據集正式發布
中國甘肅網3月27日訊 據蘭州晚報報道 3月26日,記(ji)者從(cong)西(xi)北師范大學獲悉,由該校(xiao)聯(lian)合甘(gan)肅簡(jian)牘博物館推出(chu)的(de)簡(jian)牘字(zi)符檢(jian)測與識別數據集(ji)——DeepJiandu數據集(ji)正(zheng)式(shi)對外發布。該數據集(ji)的(de)發布填補了歷史文獻數字(zi)化與人工智(zhi)(zhi)能(neng)(neng)結合的(de)空白,標志著簡(jian)牘智(zhi)(zhi)能(neng)(neng)化研究的(de)重(zhong)要進(jin)展(zhan),不僅為簡(jian)牘整理與自動(dong)識別提供(gong)了重(zhong)要支持,也將進(jin)一步推動(dong)數字(zi)人文領域的(de)持續(xu)創新與發展(zhan)。
據(ju)介紹,該數據(ju)集(ji)共包含7416張圖(tu)像,標注了99852個字符,涵(han)蓋2242個類(lei)別(bie),能夠提供極具(ju)挑戰性的簡(jian)牘(du)字符識別(bie)任(ren)務場景。數據(ju)集(ji)基于紅(hong)外圖(tu)像資料構建(jian),顯著增強(qiang)了墨跡清晰度,為簡(jian)牘(du)的數字化保護與學術(shu)研(yan)究(jiu)提供了堅實的數據(ju)基礎。
簡(jian)牘(du)(Jiandu)是中國(guo)古代記錄歷(li)史信息的(de)重要媒(mei)介,其歷(li)史可追溯至戰國(guo)、秦、漢、魏晉等(deng)時期(qi)。然而,由于簡(jian)牘(du)材料的(de)脆弱性,長期(qi)埋藏環境導致字(zi)符(fu)模糊、字(zi)跡缺損、布(bu)局(ju)復雜等(deng)問題,使得(de)人工(gong)識別與整(zheng)理極為(wei)困難。現有的(de)文(wen)(wen)獻數字(zi)化(hua)技(ji)術雖在(zai)甲(jia)骨文(wen)(wen)、蒙(meng)文(wen)(wen)手寫體、巴厘(li)島棕櫚葉手稿等(deng)領(ling)域取得(de)突破,但在(zai)簡(jian)牘(du)字(zi)符(fu)識別方面仍(reng)缺乏(fa)高質量的(de)數據集,制約了深度學習在(zai)該領(ling)域的(de)應用。DeepJiandu數據集的(de)構建正是為(wei)了解決(jue)這一問題。
該數據集由簡牘(du)學專(zhuan)家與(yu)計算機團隊(dui)聯合標注,涵蓋2242種常用字(zi)符類別,確保專(zhuan)業(ye)性與(yu)準確性。其設計充分(fen)考慮了字(zi)符殘(can)損、異形(xing)字(zi)、多種排布等復雜場景,有效提(ti)升(sheng)了模型對歷(li)史文獻的(de)適應能(neng)力。
據了解,研究團隊依托(tuo)已有(you)紅(hong)外圖(tu)像資料(liao),從(cong)1萬余(yu)件(jian)簡牘文物中篩選(xuan)出(chu)7416張高質量圖(tu)像,覆蓋不同材料(liao)、書寫(xie)風格與(yu)字體特征,確(que)保數據的代表性與(yu)多樣(yang)性。所(suo)有(you)圖(tu)像使用目標檢測標注工具(LabelImg)對99852個(ge)字符(fu)進行了精細標注,包括字符(fu)位置與(yu)類別信息。整(zheng)個(ge)過(guo)程在專家釋(shi)讀指(zhi)導下完成,兼顧學術價值(zhi)與(yu)機器可(ke)讀性。
為(wei)(wei)確保(bao)科學性(xing),研究團隊(dui)將數據(ju)(ju)集(ji)按比(bi)例劃分為(wei)(wei)訓練集(ji)、驗(yan)證集(ji)和測試集(ji),提升模(mo)(mo)型的泛(fan)化能力。數據(ju)(ju)集(ji)的字符(fu)類(lei)別統計顯示,盡管字符(fu)尺寸差異較大(da),但該數據(ju)(ju)集(ji)仍可為(wei)(wei)多(duo)尺度目標檢測任務提供良好的支持。此外,結合計算機(ji)視覺與(yu)歷史語言學,該數據(ju)(ju)集(ji)還將推(tui)動(dong)文(wen)博機(ji)構的數字化轉型,為(wei)(wei)多(duo)模(mo)(mo)態文(wen)化遺產保(bao)護(hu)提供新的技術(shu)路徑。
據(ju)悉,隨著(zhu)該數(shu)據(ju)集的(de)推(tui)(tui)廣,研究(jiu)(jiu)(jiu)團隊預計將(jiang)有更多深度學(xue)習、計算機視覺領域的(de)研究(jiu)(jiu)(jiu)者加入簡牘(du)OCR研究(jiu)(jiu)(jiu),并推(tui)(tui)動人(ren)工(gong)智能在(zai)歷史文(wen)(wen)(wen)獻(xian)解析、文(wen)(wen)(wen)化遺產保護等(deng)多學(xue)科交叉領域的(de)應用。未(wei)來,團隊將(jiang)繼續(xu)優化數(shu)據(ju)集,并探索圖像融合、文(wen)(wen)(wen)獻(xian)綴合、書寫風格分析、端到端識別等(deng)前沿技(ji)術,為數(shu)字人(ren)文(wen)(wen)(wen)研究(jiu)(jiu)(jiu)提供更加全面的(de)技(ji)術支持。
據了解,該工作由西(xi)(xi)北師范大學(xue)簡牘研究(jiu)院、甘(gan)肅省簡牘智能計算(suan)與(yu)數字人文工程(cheng)研究(jiu)中心張強教(jiao)授團隊具(ju)體(ti)開展,上(shang)海中西(xi)(xi)書局、甘(gan)肅文化(hua)出版社提供相(xiang)關數據資源,西(xi)(xi)南大學(xue)參與(yu)數據驗(yan)(yan)證實驗(yan)(yan)工作,相(xiang)關研究(jiu)論文發表于國際期刊(kan)《Scientific Data》。
蘭州日報社全媒體(ti)記者 馬文艷
- 2025-03-27甘肅省2025年上半年高等學校英語應用能力考試今起開始報名
- 2025-03-26隴拍客|平涼:積分兌換養成學生良好習慣
- 2025-03-26英烈精神 薪火相傳 蘭州市烈士陵園迎來清明祭掃高峰
- 2025-03-20甘肅研學旅行資源對接大會(蘭州站)推介會舉辦
西北角
中國甘肅網微信
微博(bo)甘(gan)肅
學習強(qiang)國
今日頭條號










