以數字映射古代文學經典
原標題:以數字映(ying)射古代文學經(jing)典
大(da)數(shu)(shu)據及(ji)其相應技術已(yi)經對(dui)(dui)社會知(zhi)識體(ti)系及(ji)思維方式產生重大(da)影響。基于(yu)這一(yi)技術對(dui)(dui)古(gu)代文(wen)學經典文(wen)本(ben)進行深度(du)而高效的分析,可(ke)(ke)(ke)使文(wen)學研究(jiu)進入更宏(hong)觀的視野(ye),提(ti)高研究(jiu)結論的精準性、穩定性及(ji)可(ke)(ke)(ke)驗(yan)證性,促生新的研究(jiu)理念、方法(fa)與范(fan)式。信息革(ge)命以(yi)(yi)來,古(gu)籍(ji)(ji)文(wen)獻數(shu)(shu)據化積(ji)累和知(zhi)識庫建設卓有成效。浩如煙海的古(gu)籍(ji)(ji),可(ke)(ke)(ke)以(yi)(yi)組成大(da)小不等的任意文(wen)本(ben)集合,具有不同維度(du)的數(shu)(shu)據特征。對(dui)(dui)它(ta)們進行基于(yu)字詞、語句、篇體(ti)等方面的統(tong)計(ji),可(ke)(ke)(ke)以(yi)(yi)獲得不同于(yu)紙本(ben)閱(yue)讀(du)的認知(zhi)。
對古籍(ji)進行散點透(tou)視
谷歌與哈(ha)佛大學利用其共同開發的(de)(de)數(shu)據庫對公元1800—2000年(nian)出(chu)版的(de)(de)近520萬冊書籍的(de)(de)單詞(ci)和短語(yu)的(de)(de)使(shi)用頻率進行(xing)統計(ji),任(ren)意詞(ci)或詞(ci)組(zu)在(zai)過去數(shu)百年(nian)典籍中的(de)(de)出(chu)現頻率與變化(hua)趨(qu)勢得(de)以(yi)清晰呈現。這一詞(ci)頻統計(ji)器廣泛應用于如(ru)探索名物的(de)(de)興衰(shuai)沿(yan)革、話題的(de)(de)熱度變化(hua)、人物或群體的(de)(de)影響力等研究。
同(tong)樣,大(da)數據(ju)(ju)時(shi)代(dai)下(xia)新的技(ji)術和研究思路為(wei)彌補紙質古(gu)籍(ji)在結構化整理、大(da)量(liang)資料匯(hui)聚排列、關(guan)系(xi)立體(ti)化勾(gou)連呈現等(deng)(deng)(deng)方面的不(bu)足提供了可能(neng)性。我們利用(yong)《國學(xue)(xue)寶(bao)典》數據(ju)(ju)庫收錄的超一萬種逾(yu)22億字的歷代(dai)古(gu)籍(ji)精良數據(ju)(ju),在其中篩選(xuan)出最為(wei)核心(xin)的經典近百部,對其從用(yong)字量(liang)、用(yong)字比(TTR_H)、字頻等(deng)(deng)(deng)不(bu)同(tong)角度進行統計(ji),將(jiang)時(shi)代(dai)與文(wen)體(ti)來源廣泛(fan)的文(wen)獻以前(qian)人不(bu)曾設想過的方式進行關(guan)聯比較,獲得了一系(xi)列涉及漢(han)語史、文(wen)體(ti)學(xue)(xue)、知識考古(gu)學(xue)(xue)、蒙學(xue)(xue)研究、近代(dai)文(wen)白(bai)轉型等(deng)(deng)(deng)眾多(duo)領(ling)域與交叉學(xue)(xue)科(ke)的重大(da)命題與發現,是“數字映(ying)射經典,技(ji)術更新人文(wen)”的有效例證。
縱向概覽從先秦(qin)到清(qing)代(dai)典(dian)籍數(shu)據,首(shou)先可以(yi)關注到的(de)(de)(de)(de)是單部經典(dian)總(zong)字(zi)(zi)(zi)(zi)數(shu)和(he)用(yong)(yong)字(zi)(zi)(zi)(zi)量(liang)(liang)(liang)的(de)(de)(de)(de)漸(jian)增趨勢。顯(xian)然,前者與(yu)(yu)(yu)(yu)文獻(xian)的(de)(de)(de)(de)物(wu)質(zhi)形態的(de)(de)(de)(de)變化發展(zhan)直接相關,后者除了受中(zhong)古(gu)(gu)(gu)漢語雙(shuang)音化等(deng)自身發展(zhan)因素的(de)(de)(de)(de)影(ying)響之外(wai),同樣與(yu)(yu)(yu)(yu)漢代(dai)至中(zhong)古(gu)(gu)(gu)以(yi)來總(zong)體(ti)書(shu)籍量(liang)(liang)(liang)的(de)(de)(de)(de)增長(chang)及社(she)(she)會的(de)(de)(de)(de)知(zhi)識好(hao)尚有(you)(you)關。用(yong)(yong)字(zi)(zi)(zi)(zi)量(liang)(liang)(liang)排(pai)名靠(kao)前的(de)(de)(de)(de)首(shou)先是知(zhi)識性工(gong)具書(shu)與(yu)(yu)(yu)(yu)承擔識字(zi)(zi)(zi)(zi)教材功(gong)能的(de)(de)(de)(de)蒙學讀本,如(ru)《爾(er)雅(ya)》(3360字(zi)(zi)(zi)(zi))、《水經注》(4490字(zi)(zi)(zi)(zi))、《古(gu)(gu)(gu)文觀(guan)止》(3863字(zi)(zi)(zi)(zi))等(deng)。漢代(dai)以(yi)降,士(shi)人逐漸(jian)重視學術(shu)與(yu)(yu)(yu)(yu)社(she)(she)會觀(guan)點的(de)(de)(de)(de)積累以(yi)及人生精華的(de)(de)(de)(de)總(zong)結,故(gu)而其(qi)著述(shu)常有(you)(you)豐厚(hou)淵博的(de)(de)(de)(de)知(zhi)識性特質(zhi)。“究(jiu)天人之際(ji),通古(gu)(gu)(gu)今之變”的(de)(de)(de)(de)《史記》與(yu)(yu)(yu)(yu)“言其(qi)大也(ye)(ye),則燾天載地;說其(qi)細也(ye)(ye),則淪于無垠”的(de)(de)(de)(de)《淮南子》用(yong)(yong)字(zi)(zi)(zi)(zi)量(liang)(liang)(liang)分別為4730字(zi)(zi)(zi)(zi)與(yu)(yu)(yu)(yu)3900字(zi)(zi)(zi)(zi),在參(can)與(yu)(yu)(yu)(yu)統(tong)計(ji)的(de)(de)(de)(de)上古(gu)(gu)(gu)至中(zhong)古(gu)(gu)(gu)文獻(xian)中(zhong)十分突出,已可與(yu)(yu)(yu)(yu)明清(qing)長(chang)篇章回體(ti)小說作品比肩(jian)(四大名著和(he)《聊(liao)齋志異(yi)》用(yong)(yong)字(zi)(zi)(zi)(zi)量(liang)(liang)(liang)在3931~4936字(zi)(zi)(zi)(zi)之間(jian))。
僅(jin)依靠數據(ju)自(zi)身不能完成(cheng)(cheng)“智慧型”轉化(hua),比(bi)(bi)數據(ju)更重要的(de)(de)(de)(de)(de)是闡(chan)釋數據(ju)的(de)(de)(de)(de)(de)方(fang)(fang)式。除了(le)將統(tong)計(ji)分析與經(jing)典論(lun)題(ti)相關(guan)聯,數據(ju)的(de)(de)(de)(de)(de)切分與聚類也是至關(guan)重要的(de)(de)(de)(de)(de)基礎環節。一項經(jing)典研究案(an)例是,將《紅樓夢(meng)》以(yi)(yi)四十回(hui)為(wei)單位進行文(wen)本(ben)切分,最后(hou)一部分在用(yong)(yong)(yong)字(zi)(zi)量方(fang)(fang)面的(de)(de)(de)(de)(de)顯著(zhu)(zhu)不同剛(gang)好佐證關(guan)于作(zuo)者(zhe)的(de)(de)(de)(de)(de)疑問。然而,以(yi)(yi)用(yong)(yong)(yong)字(zi)(zi)量直(zhi)接(jie)衡量作(zuo)品質量或(huo)閱讀(du)(du)難度又會(hui)墮入機械的(de)(de)(de)(de)(de)統(tong)計(ji)分析思維。例如統(tong)計(ji)中居首(shou)的(de)(de)(de)(de)(de)幾部小說文(wen)獻,其(qi)體(ti)量大(da)、涉及內容廣、雅俗語(yu)(yu)體(ti)并包(bao)等因素共同提(ti)升(sheng)了(le)用(yong)(yong)(yong)字(zi)(zi)量。同樣,受(shou)常用(yong)(yong)(yong)漢(han)字(zi)(zi)總量限制,文(wen)獻篇幅的(de)(de)(de)(de)(de)增加反(fan)而會(hui)導致用(yong)(yong)(yong)字(zi)(zi)比(bi)(bi)下降。故而統(tong)計(ji)中引入計(ji)算(suan)語(yu)(yu)言學(xue)(xue)常用(yong)(yong)(yong)的(de)(de)(de)(de)(de)TTR_H模型以(yi)(yi)修正用(yong)(yong)(yong)字(zi)(zi)比(bi)(bi),最終結(jie)果顯示,用(yong)(yong)(yong)字(zi)(zi)比(bi)(bi)最高者(zhe)皆為(wei)蒙(meng)學(xue)(xue)讀(du)(du)本(ben):《千字(zi)(zi)文(wen)》(1)、《百(bai)家(jia)姓(xing)》(0.986)、《三字(zi)(zi)經(jing)》(0.894)、《聲律啟蒙(meng)》(0.857)。可(ke)見(jian),編著(zhu)(zhu)者(zhe)有(you)意識地在有(you)限的(de)(de)(de)(de)(de)篇幅和內容難度中增加用(yong)(yong)(yong)字(zi)(zi)量,讓學(xue)(xue)童能比(bi)(bi)較(jiao)密(mi)集(ji)地習得(de)盡可(ke)能多的(de)(de)(de)(de)(de)漢(han)字(zi)(zi)。蒙(meng)學(xue)(xue)讀(du)(du)物的(de)(de)(de)(de)(de)編纂者(zhe)選(xuan)字(zi)(zi)標準是什么,是當時常見(jian)經(jing)典文(wen)獻中的(de)(de)(de)(de)(de)高頻字(zi)(zi),還是日常生活中的(de)(de)(de)(de)(de)常用(yong)(yong)(yong)字(zi)(zi),還是有(you)別(bie)的(de)(de)(de)(de)(de)標準?這(zhe)(zhe)種選(xuan)擇是以(yi)(yi)何(he)種方(fang)(fang)式完成(cheng)(cheng)的(de)(de)(de)(de)(de)?這(zhe)(zhe)些都是值得(de)進一步(bu)探究的(de)(de)(de)(de)(de)話題(ti)。
從(cong)用字特征(zheng)探測經典命題
字(zi)頻(pin)(pin)統計(ji)中(zhong),考慮到虛(xu)字(zi)和(he)實(shi)(shi)字(zi)的(de)(de)不(bu)同(tong)屬性和(he)闡釋(shi)功能,二者通常被(bei)分別計(ji)算。虛(xu)詞在(zai)漢(han)語史等領(ling)域(yu)的(de)(de)研究中(zhong)經常被(bei)作為特(te)征數(shu)據使(shi)用,同(tong)時也是作品風(feng)格(ge)比(bi)(bi)對的(de)(de)標(biao)志(zhi)性參數(shu),虛(xu)詞的(de)(de)使(shi)用比(bi)(bi)重本身便構成(cheng)不(bu)同(tong)作者間的(de)(de)風(feng)格(ge)標(biao)識。“五經”之中(zhong),參照后世“文筆之辨(bian)”,《詩(shi)(shi)》為有(you)韻之文,因(yin)而與其他幾部書相比(bi)(bi),高(gao)頻(pin)(pin)詞中(zhong)實(shi)(shi)詞比(bi)(bi)重更大,古(gu)人“實(shi)(shi)字(zi)多則健,虛(xu)字(zi)多則弱”的(de)(de)詩(shi)(shi)論觀點或濫(lan)觴于此。以高(gao)頻(pin)(pin)字(zi)的(de)(de)虛(xu)實(shi)(shi)映射“文筆之辨(bian)”的(de)(de)方(fang)法(fa)可(ke)推及后世,普(pu)遍而言(yan),在(zai)詩(shi)(shi)歌與詞曲(qu)等文體中(zhong),實(shi)(shi)詞作為高(gao)頻(pin)(pin)詞的(de)(de)概率大于散文文體。
作為“五(wu)經”中(zhong)(zhong)成書(shu)(shu)年代(dai)最(zui)早(zao)的(de)(de)(de)(de)(de)《尚(shang)書(shu)(shu)》,其虛(xu)(xu)字(zi)運用特征同樣保存了上(shang)古漢(han)語(yu)的(de)(de)(de)(de)(de)流變痕跡(ji)。《尚(shang)書(shu)(shu)》中(zhong)(zhong)頻次居首者是(shi)(shi)(shi)極具(ju)上(shang)古色彩的(de)(de)(de)(de)(de)虛(xu)(xu)詞“惟”,這不僅與其中(zhong)(zhong)許(xu)多篇目的(de)(de)(de)(de)(de)記言(yan)性質有(you)關,也(ye)(ye)體(ti)現了早(zao)期(qi)漢(han)語(yu)與后來(lai)“之乎者也(ye)(ye)于”時代(dai)的(de)(de)(de)(de)(de)分野。以(yi)相同視角觀照近古作品,可(ke)以(yi)窺(kui)見漢(han)語(yu)史上(shang)的(de)(de)(de)(de)(de)另一重大變革。對話是(shi)(shi)(shi)小說(shuo)中(zhong)(zhong)的(de)(de)(de)(de)(de)重要(yao)元素,表(biao)達說(shuo)話行(xing)為的(de)(de)(de)(de)(de)動詞自然(ran)享有(you)高(gao)頻地位,在《三國演義》與《聊(liao)齋(zhai)》中(zhong)(zhong)體(ti)現為“曰”,而(er)《西游記》和《水滸(hu)傳(chuan)》中(zhong)(zhong)則體(ti)現為“道”,這是(shi)(shi)(shi)后一組作品文言(yan)色彩減弱的(de)(de)(de)(de)(de)重要(yao)標(biao)志。而(er)真正的(de)(de)(de)(de)(de)白話轉型發生(sheng)在《紅(hong)樓(lou)夢》身上(shang),“的(de)(de)(de)(de)(de)”首次取代(dai)語(yu)法功能相同的(de)(de)(de)(de)(de)“之”而(er)上(shang)榜(bang),成為第二高(gao)頻詞。《紅(hong)樓(lou)夢》中(zhong)(zhong)居首的(de)(de)(de)(de)(de)高(gao)頻詞是(shi)(shi)(shi)另一個極具(ju)白話特征的(de)(de)(de)(de)(de)虛(xu)(xu)詞“了”,這也(ye)(ye)是(shi)(shi)(shi)《水滸(hu)傳(chuan)》中(zhong)(zhong)的(de)(de)(de)(de)(de)第一高(gao)頻詞。
與虛詞(ci)相反相成的(de)(de)實(shi)詞(ci)是(shi)(shi)文(wen)獻內容(rong)和主題的(de)(de)映(ying)射,其背(bei)后(hou)涉(she)及反映(ying)觀(guan)念史演(yan)變(bian)的(de)(de)重大(da)(da)命題。同樣以“五經”為(wei)例,《詩(shi)(shi)》《書(shu)(shu)》《禮》《易》《春秋》中的(de)(de)第一高(gao)頻實(shi)詞(ci)分別為(wei)“我”“王(wang)”“人”“象(xiang)”“子”。《詩(shi)(shi)經》具有最強的(de)(de)主體抒情色彩,恰如《毛詩(shi)(shi)序》所謂(wei)“以一國(guo)之事,系一人之本”。《尚書(shu)(shu)》為(wei)上古三代(dai)帝王(wang)典、謨(mo)、訓、誥、誓、命等文(wen)獻記(ji)載,以記(ji)錄“王(wang)”之言行為(wei)核心。孔子以“克(ke)己復(fu)禮”來約束人,“禮”是(shi)(shi)人內在(zai)品質的(de)(de)外化(hua),因(yin)此(ci)談“禮”不基于(yu)人則會失去根基。“象(xiang)”作為(wei)《周易》的(de)(de)解讀對象(xiang)是(shi)(shi)不言自(zi)明的(de)(de)。“古者(zhe)庖犧氏之王(wang)天下也,仰則觀(guan)象(xiang)于(yu)天,俯則觀(guan)法于(yu)地,觀(guan)鳥(niao)獸之文(wen)與地之宜,近取諸身,遠取諸物,于(yu)是(shi)(shi)始作《易》八卦,以垂憲象(xiang)。”《說文(wen)解字(zi)序》中的(de)(de)這段話,說明“象(xiang)”不僅是(shi)(shi)《周易》的(de)(de)關鍵,也是(shi)(shi)漢字(zi)造字(zi)觀(guan)念及中華文(wen)化(hua)思維的(de)(de)體現。《春秋左(zuo)傳》中首位高(gao)頻字(zi)為(wei)“子”,其中包含第二人稱(cheng)單數與諸侯(hou)(hou)國(guo)君稱(cheng)謂(wei)雙重意義(yi)(yi)。后(hou)者(zhe)是(shi)(shi)《春秋》敘事的(de)(de)核心所在(zai),孔子作《春秋》,正是(shi)(shi)為(wei)了(le)以微言大(da)(da)義(yi)(yi)記(ji)錄“禮樂征伐自(zi)諸侯(hou)(hou)出”的(de)(de)非(fei)常時代(dai),作為(wei)編年體史書(shu)(shu),各諸侯(hou)(hou)國(guo)君臣的(de)(de)秩序與道德(de)選擇構成了(le)其潛在(zai)的(de)(de)緯線。
用(yong)數據來表征(zheng)“詩分唐宋”
錢鐘書《談藝錄》以“詩(shi)(shi)分(fen)(fen)唐宋”開(kai)篇,影響(xiang)甚廣(guang)。此(ci)說(shuo)實(shi)承續(xu)前人(ren)(ren)而來,宋代嚴羽(yu)論詩(shi)(shi)便(bian)有“本朝人(ren)(ren)尚理,唐人(ren)(ren)尚意興”之說(shuo)。唐宋詩(shi)(shi)之別在(zai)于(yu)體格性分(fen)(fen),相對(dui)(dui)較為玄妙。通過量(liang)化分(fen)(fen)析,可對(dui)(dui)其語言層面(mian)的特(te)征作出細致把握(wo)。通過對(dui)(dui)《全唐詩(shi)(shi)》五(wu)萬(wan)七千(qian)余首和《全宋詩(shi)(shi)》二十(shi)(shi)五(wu)萬(wan)四千(qian)余首的詞(ci)頻(pin)統計顯示,居(ju)于(yu)前十(shi)(shi)位的高頻(pin)詞(ci)分(fen)(fen)別為:不(bu)知、何(he)處、萬(wan)里、千(qian)里、不(bu)見、不(bu)可、白(bai)云、今日、春風、不(bu)得(de)(《全唐詩(shi)(shi)》);不(bu)知、春風、平生、不(bu)可、萬(wan)里、千(qian)里、人(ren)(ren)間、不(bu)見、十(shi)(shi)年、何(he)處(《全宋詩(shi)(shi)》。下文中詞(ci)頻(pin)位序將(jiang)在(zai)括號中注(zhu)出,故不(bu)再(zai)一一說(shuo)明)。
將統計(ji)擴展至前一百位(wei),有(you)關唐(tang)宋(song)詩(shi)風之辨(bian)的(de)(de)許多命(ming)題都能夠在(zai)語(yu)詞(ci)的(de)(de)褶皺中(zhong)(zhong)被展開(kai)。作(zuo)為嚴(yan)(yan)羽(yu)(yu)論斷的(de)(de)例證,在(zai)前一百位(wei)中(zhong)(zhong),唐(tang)詩(shi)里比興尚意的(de)(de)寫景語(yu)匯更居前列,如排名第(di)(di)7的(de)(de)“白云(yun)”與第(di)(di)11的(de)(de)“明月”,雖只(zhi)是(shi)詞(ci)匯片段,唐(tang)人(ren)(ren)氣(qi)象(xiang)儼若可見。作(zuo)為參照,這兩個意象(xiang)在(zai)《全宋(song)詩(shi)》詞(ci)頻統計(ji)中(zhong)(zhong)分(fen)別降至19與23位(wei)。嚴(yan)(yan)羽(yu)(yu)“本(ben)朝尚理(li)”的(de)(de)觀點同(tong)樣能在(zai)統計(ji)數據中(zhong)(zhong)獲(huo)得佐(zuo)證:宋(song)詩(shi)中(zhong)(zhong)“平生”(第(di)(di)3位(wei))、“人(ren)(ren)間”(第(di)(di)8位(wei))等哲(zhe)思人(ren)(ren)生的(de)(de)“理(li)語(yu)”排位(wei)較(jiao)唐(tang)代(分(fen)別居于(yu)第(di)(di)30、13位(wei))又有(you)上(shang)升(sheng)。另一點值得玩味的(de)(de)是(shi),宋(song)人(ren)(ren)雖崇(chong)尚自(zi)守慎獨、內求于(yu)心(xin)的(de)(de)理(li)學,詩(shi)中(zhong)(zhong)卻(que)不乏唐(tang)人(ren)(ren)所極少寫到的(de)(de)“功(gong)名”(36)、“富貴”(78),而(er)唐(tang)詩(shi)中(zhong)(zhong)常見的(de)(de)“惆悵”(15)、“相(xiang)思”(22)等與“理(li)語(yu)”相(xiang)對的(de)(de)“情語(yu)”在(zai)宋(song)詩(shi)詞(ci)頻列表中(zhong)(zhong)跌出了前一百位(wei)。
唐詩偏重空(kong)間,而(er)宋(song)(song)詩偏重時間。敻絕的(de)(de)宇宙(zhou)意識(shi)和無垠的(de)(de)空(kong)間,從《全(quan)唐詩》詞頻(pin)(pin)前五(wu)位中(不知、何處、萬里、千里、不見(jian)(jian))可見(jian)(jian)一斑。日(ri)(ri)本漢學家吉川幸(xing)次郎曾提出,唐詩是(shi)(shi)(shi)(shi)凝視著人生(sheng)貴重瞬(shun)間的(de)(de)燃燒(shao),所注視的(de)(de)只是(shi)(shi)(shi)(shi)對象的(de)(de)頂點。而(er)宋(song)(song)詩是(shi)(shi)(shi)(shi)時間性的(de)(de),詩人視人生(sheng)為漫(man)長(chang)的(de)(de)持續(xu)。以語詞的(de)(de)統計(ji)(ji)來衡量這(zhe)一觀點,唐詩排序最高的(de)(de)時間詞是(shi)(shi)(shi)(shi)“今日(ri)(ri)”(8),時空(kong)與(yu)情感(gan)凝注于(yu)此一點,而(er)宋(song)(song)詩中居(ju)首的(de)(de)是(shi)(shi)(shi)(shi)“十(shi)年(nian)”(9),繼(ji)而(er)是(shi)(shi)(shi)(shi)“今日(ri)(ri)”(12)與(yu)“百年(nian)”(20)。吉川將“燃燒(shao)與(yu)持續(xu)”的(de)(de)說法推進至意象選用的(de)(de)對比方面,夕陽(yang)是(shi)(shi)(shi)(shi)燃燒(shao)的(de)(de)景(jing)象,雨(yu)是(shi)(shi)(shi)(shi)持續(xu)的(de)(de)景(jing)象,于(yu)是(shi)(shi)(shi)(shi)有了(le)“唐人寫(xie)夕陽(yang)宋(song)(song)人寫(xie)雨(yu)”的(de)(de)經典論(lun)斷。詞頻(pin)(pin)統計(ji)(ji)恰也驗證了(le)這(zhe)點,《全(quan)唐詩》詞頻(pin)(pin)居(ju)于(yu)前列(lie)的(de)(de)“落日(ri)(ri)”(55)、“日(ri)(ri)暮”(59)、“夕陽(yang)”(69),在(zai)宋(song)(song)詩中都排在(zai)九十(shi)位之后。
不同于信息(xi)爆炸(zha)的(de)(de)(de)現代(dai),傳(chuan)世文(wen)(wen)(wen)(wen)獻中的(de)(de)(de)經典文(wen)(wen)(wen)(wen)本(ben)邊界(jie)是相對清晰的(de)(de)(de),然(ran)而其體量(liang)對于專注于某一選題(ti)或(huo)領(ling)域的(de)(de)(de)研究(jiu)者依(yi)然(ran)難(nan)以(yi)全(quan)體掌握。基(ji)(ji)于大數(shu)據(ju)技術(shu)的(de)(de)(de)古代(dai)文(wen)(wen)(wen)(wen)學(xue)經典文(wen)(wen)(wen)(wen)本(ben)分(fen)析,既著眼于經典文(wen)(wen)(wen)(wen)獻,又(you)以(yi)海量(liang)的(de)(de)(de)基(ji)(ji)礎文(wen)(wen)(wen)(wen)獻為基(ji)(ji)礎,希望在較(jiao)短時(shi)間內用高效(xiao)、全(quan)面的(de)(de)(de)數(shu)據(ju)挖掘(jue),來(lai)進行(xing)準確有(you)效(xiao)的(de)(de)(de)文(wen)(wen)(wen)(wen)本(ben)分(fen)析。傳(chuan)統古典學(xue)研究(jiu)中的(de)(de)(de)結論多通(tong)過個人(ren)有(you)限閱讀過程(cheng)中的(de)(de)(de)觀察、思索、領(ling)悟等方(fang)式(shi)獲(huo)得,這類方(fang)式(shi)往往具備一定的(de)(de)(de)主觀性乃至先驗色彩。大數(shu)據(ju)的(de)(de)(de)匯聚和計(ji)算分(fen)析方(fang)法的(de)(de)(de)運用,能夠使既出人(ren)意(yi)表(biao)又(you)允執厥中的(de)(de)(de)結論“自動涌現”。
利用(yong)大數據將以往(wang)被(bei)分裂和(he)(he)(he)隔(ge)絕的事物重新(xin)連接(jie),改變了(le)我們對文(wen)(wen)(wen)獻、文(wen)(wen)(wen)本、知識(shi)(shi)的認識(shi)(shi)路徑(jing)和(he)(he)(he)把握尺(chi)度。僅從字/詞頻統(tong)計這一(yi)大數據手(shou)段(duan)的微小(xiao)切面入手(shou),我們便(bian)已初步(bu)獲得了(le)以一(yi)種新(xin)方(fang)(fang)式探測經史(shi)、語言學(xue)、文(wen)(wen)(wen)學(xue)等領(ling)域(yu)文(wen)(wen)(wen)獻的體驗。與用(yong)不(bu)同(tong)技術手(shou)段(duan)、不(bu)同(tong)結構化方(fang)(fang)式、不(bu)同(tong)顆粒度重構的集成式文(wen)(wen)(wen)獻知識(shi)(shi)庫(ku)相(xiang)(xiang)比,以上(shang)工作或許只是一(yi)份(fen)小(xiao)嘗試。相(xiang)(xiang)信(xin)隨著統(tong)計數據的累積、疊(die)加(jia)和(he)(he)(he)映射,古籍和(he)(he)(he)傳統(tong)文(wen)(wen)(wen)化研究一(yi)定能夠煥(huan)發出(chu)更多(duo)生機(ji)和(he)(he)(he)活(huo)力(li)。(作者:劉(liu)石,系國家(jia)社科(ke)基(ji)金重大項目(mu)“基(ji)于大數據技術的古代文(wen)(wen)(wen)學(xue)經典(dian)文(wen)(wen)(wen)本分析與研究”首(shou)席專(zhuan)家(jia)、清華大學(xue)教(jiao)授,尹小(xiao)林(lin),系首(shou)都師范大學(xue)中(zhong)國詩歌研究中(zhong)心專(zhuan)職研究員)
相關新聞
- 2022-03-25如何更好地閱讀“世界文學”
- 2022-03-23圖書出版應顧及銀發閱讀
- 2022-03-23《企業直播》:助力企業數字化升級
- 2022-03-17激發古典詩詞的時代魅力
精彩推薦
- 【隴人相】麻醉醫師王迎斌:無影燈下的守護者
- 甘肅鄉村旅游綜合效應凸顯
- 【奮進新征程 建功新時代 喜迎省第十四次黨代會】深化產業轉型 打造綠色發展新引擎
- 《甘肅省反對拐賣人口行動實施細則》印發 拐賣兒童案件不破 專案組不得撤銷
- 尹弘在甘肅省疫情聯防聯控領導小組會議上強調:守牢外防輸入防線 精準攻堅局部風險 持續鞏固防控成果盡快實現社會面清零 任振鶴講話 王嘉毅出席
- 甘肅省十三屆人大常委會第三十次會議召開 尹弘主持并講話
- 圖解丨向“雙碳”邁進!看甘肅“十四五”如何綠色高質量發展
- 金塔:鋪就“產業路”催開“振興花”

