精品一二三区久久aaa片,无码国产乱人伦偷精品视频,国产成人无码A片V99,精品国内自产拍在线观看视频,毛阿敏性做爰A片免费看

您當前的位置 : 中國甘肅網 >> 書香隴原 >> 要聞

AI助力,破譯古文字“密碼”

2025-06-16 08:42 來源:光明網-《光明日報》

  【一(yi)線講(jiang)述】  

  作者(zhe):聶菲(南(nan)京大學文(wen)學院助(zhu)理研究員(yuan))

  古文(wen)字(zi),主要指中(zhong)國商(shang)(shang)代(dai)晚期(qi)至(zhi)秦代(dai)使用的漢字(zi)。二十世紀30年代(dai),殷墟發掘出大量有(you)字(zi)甲骨,證實(shi)了商(shang)(shang)王朝的存(cun)在,重塑了世界對中(zhong)國古代(dai)文(wen)明(ming)的評價。近年,抄有(you)《老子(zi)》《詩經》等內容的戰國竹(zhu)書(shu)呈井噴式(shi)涌現。可以說,古文(wen)字(zi)是解讀中(zhong)華文(wen)明(ming)基(ji)因的關鍵。

  古文(wen)字研(yan)究(jiu)(jiu)與(yu)科技發(fa)(fa)展密不可(ke)分。紅外采集、高精度掃描等技術(shu)手段極大(da)改善了資料條件,索(suo)引、搜索(suo)引擎、數據(ju)庫,為古文(wen)字研(yan)究(jiu)(jiu)提供了巨大(da)助力。如今,AI技術(shu)蓬勃發(fa)(fa)展,當通過(guo)人工智能拼(pin)綴上第(di)一(yi)片甲骨(gu)時,實現的不僅是(shi)技術(shu)突(tu)破,更是(shi)中華文(wen)明根脈(mo)的賡續與(yu)新(xin)生(sheng)。

  簡(jian)單來講,“破譯”古文(wen)字可分為兩步:一是識形(xing),二是讀(du)詞(ci)。即先認(ren)出古文(wen)字形(xing)體(ti)是什(shen)么字,再判定其音義,弄明白它(ta)在文(wen)獻(xian)中的(de)(de)含義。如,先認(ren)出甲骨中“[圖1]”是“王(wang)”,再讀(du)懂刻辭與商(shang)王(wang)有(you)關。人(ren)工智能(neng)輔助古文(wen)字研(yan)究(jiu),就是要模仿人(ren)類(lei)專(zhuan)家的(de)(de)學(xue)習(xi)過程(cheng),進行(xing)“記字形(xing)”和“讀(du)古書”的(de)(de)訓練。

AI助力,破譯古文字“密碼”

  圖1

  目前對計算機(ji)而言,“認(ren)字(zi)(zi)(zi)形”十分艱難。機(ji)器學習(xi)面臨(lin)著諸多(duo)挑(tiao)戰,包括圖(tu)像預處理結果不佳(jia)、標注樣(yang)本稀(xi)缺、字(zi)(zi)(zi)形實(shi)情極其復雜等。其中,“數據困境”是(shi)顯性瓶(ping)頸,古(gu)文(wen)字(zi)(zi)(zi)單字(zi)(zi)(zi)量低(di),有效樣(yang)本密(mi)度低(di),機(ji)器學習(xi)樣(yang)本不足。最近,我所在的(de)課題(ti)組參(can)與開發了“古(gu)文(wen)字(zi)(zi)(zi)線(xian)上書(shu)寫(xie)(xie)系統(tong)”,旨在收集專家書(shu)寫(xie)(xie)古(gu)文(wen)字(zi)(zi)(zi)的(de)動(dong)態路徑,將古(gu)文(wen)字(zi)(zi)(zi)字(zi)(zi)(zi)形轉(zhuan)換(huan)成(cheng)有順序、有方向(xiang)的(de)矢量線(xian)段,為(wei)訓練計算機(ji)識讀(du)字(zi)(zi)(zi)形提供學習(xi)參(can)考(kao)。

  此(ci)前計算機(ji)識圖多從像(xiang)素角度(du)入(ru)手,受圖像(xiang)質(zhi)量、樣本量、字(zi)形(xing)復雜性等影響,特(te)(te)征提取困難,識別率低。為了破題(ti),我們(men)課(ke)題(ti)組轉換了思路(lu)——并非讓(rang)模型分(fen)析靜(jing)態(tai)字(zi)形(xing),而是通過(guo)動態(tai)路(lu)徑數據,捕(bu)捉專家的(de)(de)(de)書寫(xie)順序和對字(zi)形(xing)結構的(de)(de)(de)理解,幫助模型像(xiang)人(ren)一樣“思考”如(ru)何(he)書寫(xie)古文字(zi)。我們(men)希望通過(guo)提取人(ren)類(lei)書寫(xie)古文字(zi)的(de)(de)(de)動態(tai)特(te)(te)征,將人(ren)的(de)(de)(de)經驗(yan)轉換成可(ke)訓練(lian)的(de)(de)(de)數據規(gui)則,從而彌補傳(chuan)統(tong)方法在異(yi)體字(zi)處理上的(de)(de)(de)缺(que)陷,解決數據量不(bu)足等問題(ti)。

  目前,我們的(de)研(yan)究已進入初步試驗階段(duan),錄入了12825條字(zi)形書寫數據進行(xing)前期測(ce)驗。眼下正在搭建機器學(xue)習(xi)的(de)模型,相關代碼達到萬余行(xing),計算(suan)機累計運行(xing)時間超過400小時,模型迭代3個版本。從生成(cheng)(cheng)結(jie)果看已初見成(cheng)(cheng)效,計算(suan)機能成(cheng)(cheng)功模仿人類書寫的(de)筆(bi)勢(shi)、筆(bi)順和大致輪(lun)廓,但(dan)在部件書寫的(de)準(zhun)確性、筆(bi)畫組合和構(gou)件位置關系上,仍(reng)有很大的(de)進步空間。

AI助力,破譯古文字“密碼”

  圖2

AI助力,破譯古文字“密碼”

  圖3

  例如甲骨(gu)文中“千”字有一類形(xing)體作(zuo)“[圖2]”形(xing),是(shi)在側(ce)視(shi)站(zhan)立人形(xing)“[圖3]”的基礎上,在其腿(tui)部加一橫筆(bi)分化而來(lai),其書(shu)寫順序一般是(shi)先寫出側(ce)視(shi)身體軀(qu)干和手臂(bei),再(zai)寫后(hou)加的一橫筆(bi):

AI助力,破譯古文字“密碼”

  目(mu)前訓練得到的機器書寫(xie)路徑是(shi):

AI助力,破譯古文字“密碼”

  可(ke)以看出,計算機已能再現(xian)字形輪廓和筆(bi)(bi)(bi)順(shun)(shun),但對第二筆(bi)(bi)(bi)的起(qi)始位(wei)置把(ba)握欠佳:第二筆(bi)(bi)(bi)不應與第一(yi)筆(bi)(bi)(bi)交叉穿出;二、三筆(bi)(bi)(bi)雖順(shun)(shun)序相接,但筆(bi)(bi)(bi)跡并不相連,即第二筆(bi)(bi)(bi)的終點(dian)并非第三筆(bi)(bi)(bi)的起(qi)點(dian)。

  為修正結(jie)果,我們將在現(xian)有試(shi)驗的基礎上,對(dui)機器學習方法(fa)和算(suan)法(fa)結(jie)構進行調(diao)試(shi)和整改。這項(xiang)工(gong)作可能十分漫長,但也蘊含著(zhu)無限(xian)潛力。

版權聲明:凡注有稿件來源為“中國甘肅網”的稿件,均為本網原創版權稿件,轉載必須注明來源。

西北角西北角
中國甘肅網微信中國甘肅(su)網微信
中國甘肅網微博中國(guo)甘肅(su)網微博(bo)
微博甘肅微博甘肅
學習強國學習強(qiang)國
今日頭條號今日頭條號
分享到