精品一二三区久久aaa片,无码国产乱人伦偷精品视频,国产成人无码A片V99,精品国内自产拍在线观看视频,毛阿敏性做爰A片免费看

您當前的位置 : 中國甘肅網 >> 書香隴原 >> 前沿觀點

人工智能如何輔助古文字研究

22-10-31 09:39 來(lai)源:光(guang)(guang)明網-《光(guang)(guang)明日報(bao)》 編輯:張蘭琴

  作者(zhe):李(li)春桃(吉林大學考古(gu)學院古(gu)籍研究所教授,“人(ren)工(gong)智能識別古(gu)文字形體軟件系統研發(fa)與建設”項目(mu)負責人(ren))

  人(ren)(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)已經參與到人(ren)(ren)(ren)們的(de)(de)生(sheng)活、工(gong)(gong)作(zuo)(zuo)、學(xue)習(xi)等諸多方(fang)面,科(ke)研工(gong)(gong)作(zuo)(zuo)同樣如此。古(gu)文(wen)字(zi)專業雖(sui)然(ran)屬于傳(chuan)統學(xue)科(ke),卻(que)與人(ren)(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)技(ji)術十(shi)分契(qi)合。相較于人(ren)(ren)(ren)文(wen)學(xue)科(ke)中(zhong)的(de)(de)許(xu)多專業,古(gu)文(wen)字(zi)考釋更為客觀(guan),其(qi)研究結論具有唯一(yi)性,研究過(guo)程也遵(zun)循一(yi)定的(de)(de)規律,在人(ren)(ren)(ren)文(wen)學(xue)科(ke)中(zhong)最接近自然(ran)科(ke)學(xue),這符合人(ren)(ren)(ren)工(gong)(gong)智(zhi)(zhi)能(neng)技(ji)術的(de)(de)工(gong)(gong)作(zuo)(zuo)原理。

  那(nei)么(me),人工智(zhi)能的(de)哪些技術能夠輔助古文(wen)(wen)字研究?之前需要(yao)人力完(wan)成(cheng)什么(me)工作(zuo)?學界目前又做(zuo)到(dao)了(le)什么(me)程度?本(ben)文(wen)(wen)便擬談談這些內容。

  古文字形體系聯圖譜

  就古文(wen)字(zi)考(kao)(kao)釋(shi)(shi)而言,人工智(zhi)能可(ke)以提供的幫助是多(duo)方(fang)面的。著名古文(wen)字(zi)學(xue)家唐蘭先生曾(ceng)將古文(wen)字(zi)的考(kao)(kao)釋(shi)(shi)方(fang)法(fa)(fa)(fa)(fa)總結為形(xing)體(ti)對(dui)(dui)照法(fa)(fa)(fa)(fa)、推(tui)勘法(fa)(fa)(fa)(fa)、偏旁分析法(fa)(fa)(fa)(fa)與歷史(shi)考(kao)(kao)證法(fa)(fa)(fa)(fa)。人工智(zhi)能中的圖像識別、自然語言處理、知識圖譜等技術(shu)正可(ke)與這幾(ji)種方(fang)法(fa)(fa)(fa)(fa)相互對(dui)(dui)應。

  形(xing)體(ti)對照(zhao)法是(shi)把不(bu)同(tong)材(cai)料(liao)中(zhong)的(de)古(gu)文字形(xing)體(ti)加以(yi)比較(jiao)、對照(zhao),利用已識(shi)字來考證未(wei)釋形(xing)體(ti)。這種(zhong)方法需(xu)要研究者能(neng)(neng)夠熟記大(da)量古(gu)文字形(xing)體(ti),如此(ci)才能(neng)(neng)把不(bu)同(tong)材(cai)料(liao)聯(lian)系(xi)起來。而人工智(zhi)能(neng)(neng)識(shi)別利用的(de)是(shi)深度學習與計算機視(shi)覺技術(shu)和算法,只(zhi)要提供足(zu)夠多的(de)古(gu)文字形(xing)體(ti)來訓練模型(xing),就(jiu)能(neng)(neng)實現識(shi)別功能(neng)(neng)。記憶方面(mian)(mian),數以(yi)百萬計的(de)文字形(xing)體(ti)總量,人腦只(zhi)能(neng)(neng)記住其中(zhong)很小的(de)一部分,而智(zhi)能(neng)(neng)模型(xing)卻可以(yi)全面(mian)(mian)覆(fu)蓋,能(neng)(neng)力更為強大(da),識(shi)別推薦結果會給(gei)專家以(yi)有(you)效提示。

  推(tui)勘法是(shi)(shi)將出(chu)(chu)土材料與文獻中的(de)(de)(de)記載進(jin)行對勘,尋繹文義(yi),進(jin)而破解未釋(shi)形體。隨著深(shen)度學(xue)習(xi)技(ji)術(shu)的(de)(de)(de)使用(yong),尤其是(shi)(shi)2018年(nian)谷歌公司開(kai)發(fa)(fa)的(de)(de)(de)BERT預訓練(lian)(lian)模(mo)型在自然語(yu)(yu)言處(chu)理(li)領(ling)域(yu)的(de)(de)(de)大(da)(da)(da)規模(mo)使用(yong),近年(nian)來,自然語(yu)(yu)言信息處(chu)理(li)技(ji)術(shu)發(fa)(fa)展(zhan)迅速,在命名實體識別、語(yu)(yu)義(yi)關系等(deng)方面有(you)(you)重大(da)(da)(da)提升。經過足(zu)夠的(de)(de)(de)數據(ju)訓練(lian)(lian),模(mo)型能(neng)夠具有(you)(you)普通(tong)人(ren)甚至專家(jia)(jia)一般的(de)(de)(de)能(neng)力(li)。舉一個通(tong)俗易懂的(de)(de)(de)例(li)子(zi),假設“過節(jie)了我們煮△▽吃”一句中的(de)(de)(de)“△▽”二形是(shi)(shi)未釋(shi)字(zi)或殘損字(zi)。如果(guo)要考證(zheng)這兩個形體,經過訓練(lian)(lian)的(de)(de)(de)深(shen)度學(xue)習(xi)模(mo)型可以(yi)給出(chu)(chu)備選答案,如“餃子(zi)”“湯圓”“粽子(zi)”等(deng)相符合(he)的(de)(de)(de)詞(ci)語(yu)(yu)。因(yin)為有(you)(you)“過節(jie)”限定(ding)(ding),所以(yi)“白粥”等(deng)普通(tong)熬(ao)煮食物不會被(bei)(bei)推(tui)薦;因(yin)為有(you)(you)“煮”字(zi)限定(ding)(ding),“月餅”等(deng)非熬(ao)煮食品不會被(bei)(bei)推(tui)薦。深(shen)度學(xue)習(xi)模(mo)型完(wan)全能(neng)夠捕捉(zhuo)語(yu)(yu)句里面關鍵字(zi)詞(ci)的(de)(de)(de)文意。對于例(li)子(zi)中的(de)(de)(de)這句話(hua),普通(tong)人(ren)也能(neng)給出(chu)(chu)正確(que)的(de)(de)(de)判(pan)斷方向。但是(shi)(shi)如果(guo)面對的(de)(de)(de)是(shi)(shi)古文字(zi)材料,情(qing)況就不同了,因(yin)為多數人(ren)對古代(dai)漢語(yu)(yu)并不熟悉,即使專業學(xue)者(zhe)也無(wu)法熟記大(da)(da)(da)量(liang)的(de)(de)(de)古代(dai)語(yu)(yu)料。所以(yi),我們可以(yi)利(li)用(yong)出(chu)(chu)土文獻的(de)(de)(de)釋(shi)文數據(ju)和(he)傳世(shi)古書的(de)(de)(de)記載來訓練(lian)(lian)語(yu)(yu)言模(mo)型,從而在研究(jiu)過程中利(li)用(yong)模(mo)型圈定(ding)(ding)待釋(shi)字(zi)的(de)(de)(de)目(mu)標范圍,有(you)(you)時(shi)甚至能(neng)夠鎖(suo)定(ding)(ding)正確(que)答案,這能(neng)給予專家(jia)(jia)極大(da)(da)(da)的(de)(de)(de)幫助。

  偏旁(pang)分(fen)析(xi)法(fa)是(shi)(shi)通過分(fen)析(xi)、識(shi)(shi)別(bie)偏旁(pang)來(lai)考(kao)釋古(gu)文(wen)字。歷史考(kao)證法(fa)是(shi)(shi)根(gen)據(ju)不同(tong)時(shi)期(qi)形體的(de)特征及(ji)演(yan)變(bian)(bian)規(gui)律(lv)來(lai)考(kao)釋古(gu)文(wen)字。人工智能知(zhi)識(shi)(shi)圖(tu)譜(pu)(pu)技(ji)術與這(zhe)兩種方法(fa)相關。知(zhi)識(shi)(shi)圖(tu)譜(pu)(pu)是(shi)(shi)描(miao)繪(hui)實(shi)體之間關系(xi)的(de)智能網絡,能夠整合部件、字形、詞(ci)義幾個(ge)層次的(de)古(gu)文(wen)字知(zhi)識(shi)(shi)。可(ke)以根(gen)據(ju)文(wen)字偏旁(pang)系(xi)聯圖(tu)譜(pu)(pu),從而(er)展示出那些具有(you)(you)相同(tong)偏旁(pang)的(de)文(wen)字及(ji)對應形體;知(zhi)識(shi)(shi)圖(tu)譜(pu)(pu)也具有(you)(you)挖掘文(wen)字演(yan)變(bian)(bian)規(gui)律(lv)的(de)潛力,進而(er)為專家(jia)提供幫助(zhu)。可(ke)見,在古(gu)文(wen)字研究過程(cheng)中,人工智能技(ji)術可(ke)以從多(duo)個(ge)維(wei)度為專家(jia)提供輔助(zhu)。

  當然,隨著戰國竹簡的(de)公布,古文(wen)字的(de)考釋方法也(ye)發生(sheng)了變化,通(tong)(tong)過(guo)破解(jie)通(tong)(tong)假(jia)關(guan)系找到文(wen)字所(suo)代表的(de)“詞(ci)”顯得(de)尤為(wei)重要(yao)。這(zhe)就需(xu)要(yao)專家做好通(tong)(tong)假(jia)現象標注,經過(guo)反復訓練(lian)使模(mo)(mo)型(xing)具有通(tong)(tong)假(jia)語感。但(dan)是(shi)面對以往從未出(chu)現過(guo)的(de)通(tong)(tong)假(jia)用例,模(mo)(mo)型(xing)是(shi)無能(neng)為(wei)力(li)的(de),所(suo)以還需(xu)要(yao)音韻(yun)學(xue)家介入,從通(tong)(tong)假(jia)規律(lv)等角度進(jin)行研究(jiu),讓模(mo)(mo)型(xing)同(tong)時掌握通(tong)(tong)假(jia)條件所(suo)需(xu)要(yao)的(de)“實例”和“規律(lv)”。

  筆者認為(wei),人(ren)工(gong)智(zhi)能(neng)與古(gu)文(wen)字結合可(ke)分(fen)成三個階(jie)(jie)段:第一(yi)(yi)階(jie)(jie)段是人(ren)工(gong)塑造模型。古(gu)文(wen)字專家需要整(zheng)理(li)基礎(chu)數(shu)據(ju),包括資料釋文(wen)、圖版切字、字形(xing)拆分(fen)、屬性標(biao)注等等;計(ji)算機專家利用這些數(shu)據(ju)完(wan)成功能(neng)實(shi)現。這一(yi)(yi)階(jie)(jie)段費時(shi)費力(li),最為(wei)艱苦。第二階(jie)(jie)段是人(ren)工(gong)智(zhi)能(neng)利用已經實(shi)現的(de)技術為(wei)專家提供輔(fu)助。這有(you)可(ke)能(neng)是省(sheng)時(shi)省(sheng)力(li)的(de)資料對勘(kan),有(you)可(ke)能(neng)是思(si)考方向的(de)積極引導,也(ye)有(you)可(ke)能(neng)是研究結果的(de)智(zhi)能(neng)推薦。此階(jie)(jie)段專家也(ye)會針對智(zhi)能(neng)技術的(de)不足進行完(wan)善。第三個階(jie)(jie)段就是人(ren)工(gong)智(zhi)能(neng)的(de)獨(du)立判斷,它可(ke)以綜合以上所有(you)方面給出問題的(de)答案。目(mu)前在(zai)這一(yi)(yi)領域的(de)研究,學界似乎尚處在(zai)第一(yi)(yi)階(jie)(jie)段。

  以上(shang)重點談了人(ren)工(gong)智能(neng)(neng)與(yu)古(gu)文(wen)字考(kao)釋的(de)(de)關(guan)系。事(shi)實上(shang),人(ren)工(gong)智能(neng)(neng)在(zai)(zai)其他方面也(ye)能(neng)(neng)給研究(jiu)者提供幫助,如甲骨綴合、甲骨文(wen)分組分類、青銅器斷代(dai)、竹(zhu)簡編聯等等。可以預(yu)見,將(jiang)來(lai)人(ren)工(gong)智能(neng)(neng)技(ji)術(shu)會在(zai)(zai)更多方面為古(gu)文(wen)字研究(jiu)提供幫助。人(ren)們(men)常說,古(gu)文(wen)字學是一(yi)門古(gu)老(lao)而又年(nian)(nian)輕(qing)(qing)的(de)(de)學問。由于人(ren)工(gong)智能(neng)(neng)技(ji)術(shu)的(de)(de)介入,古(gu)文(wen)字學的(de)(de)“年(nian)(nian)輕(qing)(qing)”也(ye)體現在(zai)(zai)研究(jiu)的(de)(de)方法(fa)上(shang),可以與(yu)最新(xin)的(de)(de)科技(ji)相(xiang)互結合。相(xiang)信新(xin)的(de)(de)研究(jiu)資料(liao)與(yu)新(xin)的(de)(de)研究(jiu)方法(fa)能(neng)(neng)讓(rang)古(gu)文(wen)字學一(yi)直年(nian)(nian)輕(qing)(qing)且(qie)充滿活力(li)。

  《光明日報》( 2022年10月(yue)30日 05版)

版權聲明:凡注有稿件來源為“中國甘肅網”的稿件,均為中國甘肅網版權稿件,轉載必須注明來源為“中國甘肅網”。

西北角西北(bei)角
中國甘肅網微信中(zhong)國(guo)甘肅網微(wei)信
中國甘肅網微博中國甘肅網微博
微博甘肅微博甘肅
學習強國學習強國
今日頭條號今(jin)日(ri)頭條號

  • 10/27
  • 10/27
  • 09/29
  • 09/24
  • 09/24

分享到