消費日報網 > 時尚生活 > 文娛

數字化為古籍研究帶來怎樣的“蝶變”

時間:2022-04-15 11:24:13 來源:光明日報

數字與古籍,以前像兩條涇渭分明的河流。

當它們相遇后,能產生怎樣的效能和反應?

循著新近出臺的《關于推進新時代古籍工作的意見》所提出的“推進古籍數字化”“積極開展古籍文本結構化、知識體系化、利用智能化的研究和實踐”等要求,記者采訪了國內從事古籍智能化研究的學者,探一探數字化能給古籍保護與研究帶來怎樣的“蝶變”。

沉寂的典籍,動起來了

一幅橫向流動的《千里江山圖》上,標注了“涑水”“濂溪”“玉山”等若干個古地名。數百個衣袂飄飄的儒生,正在圖上緩緩挪動,像是在“趕路”。他們從一個地方挪到另一個地方的行程,代表著他們的求學歷程和所屬學派。

這是北京大學人工智能專業學生馬源和她的同學們向首屆“北京大學數字人文作品展”所提交的展品——用JavaScript完成的H5習作,取名為“宋元學案傳承可視化系統”。

“像《宋元學案》這樣的大部頭古籍,離我們的時代太遙遠了。如果不是做專業研究的學者,可能根本想不起來要翻閱它。我們想通過這種像游戲界面一樣的形態,吸引年輕人了解古籍?!瘪R源說。

展覽現場,同樣能帶來“躍動”感的,是北京大學中國古代史研究中心副主任史睿指導桑宇辰等同學制作的“朱子年譜可視化系統”,它利用GIS(地理信息系統)技術,對《朱熹年譜長編》進行了時空的可視化呈現,讀者能自主點擊、了解朱熹求學、游歷、交友的生平。

數字技術甚至賦予古籍研究人文學科的能力,遠不止讓它們像游戲一樣動起來。

“數字人文代表著智能信息環境下,人文社會科學研究范式的轉型,從傳統的文本驅動向數據驅動轉型。人文研究的材料,如文獻、圖錄、器物等,都可轉化成某種形態的數據,從而使得大數據和人工智能技術也能處理它們。視覺化只是數字人文帶來的附帶效應,讓人易于理解學術成果。而其深層邏輯,是研究范式的變化?!北本┐髮W數字人文研究中心主任王軍教授告訴記者。

展覽現場有他指導的博士生王林旭對《宋元學案》《明儒學案》《清儒學案》所做的數據挖掘成果展示——

“學術關系網絡圖”,用正則表達式對《宋元學案》和《清儒學案》進行人物關系統計,共有“弟子”“家學”“私淑”“同調”“學侶”“講友”“交游”“從游”“其他”9種類型,出現頻次一目了然。

“通過知識圖譜的重構,古籍不再是一座座文字的大山,古文里的內在結構和語義關系能在短時間內被清晰的抽繹和展示出來?!蓖踯娬f。

除了中國古籍能“數”讀,國外的古籍能“數”讀嗎?

答案是肯定的。

在北京大學外國語學院西葡意語系教師成沫對意大利詩人但丁進行的數字化研究項目中,《神曲》中重復頻率最高的三行詩韻律結構valle(山谷)、spalle(肩膀)、calle(小道)被精準地提煉了出來。

不僅是“讀取”,還要能“演繹”

過去的典籍研究,主要靠大師。

大師在大量閱讀文獻的基礎上,靠一己的記憶與思辨能力,產出具有思想性的研究成果,再訴諸筆端,以文字的形態傳遞給大眾。

機器智能輔助下的典籍研究,則是以數據為基礎的。在機器智能的介入下,學者能獲得瞬間處理海量資料的能力,王軍分析。

清華大學中文系教授劉石和首都師范大學中國詩歌研究中心專職研究員尹小林發表的一篇文章,對先秦到清代的百部經典古籍做了大數據分析,發現頗豐。如果依賴于人工統計,這樣的成果是難以在短時期內產生的。數字帶給經典典籍研究的變化之一,是效率的提升。

“在詩歌研究領域,前輩學者主要通過例證,來進行分析和總結中國古典詩詞的聲律。后來出現了手工標注統計和基于大量詩詞的定量分析統計。然而這些研究結論都來源于人工統計,單項研究的耗時長?!北本┐髮W中文系教授杜曉勤回顧道。

有沒有一個軟件,能“一鍵”就準確標注所有中國古典詩詞的聲律格式和合律程度呢?

從2004年起,杜曉勤等開始建設中國古代音韻數據庫和中國古代詩歌文本數據庫,共錄入1萬多個漢字的音韻和900多萬字的詩歌。在此基礎上,他們研發了“中國古典詩歌聲律分析系統”。這個系統,能快速、大批量標記與統計分析中國古典詩歌的聲律。

利用這個系統,杜曉勤撰寫了《齊梁詩歌向盛唐詩歌的嬗變》《六朝聲律與唐詩體格》等多部專著,刊發了多篇論文。

在古籍數字化領域耕耘多年,王軍想做的不僅僅是對古籍進行單向度的知識抽取和信息集成。

他指導唐雪梅、嚴承希等博士生研發的古籍自動整理系統,通過對算法的深度學習和大規模語料訓練,能對古籍的句讀和人名、地名、職官、書名、時間五類實體進行自動標記。其中句讀平均準確率達94%,命名實體識別在史料上的準確率達98%。

“智能技術支持下的古典文獻研究,是未來古籍研究的重要方向之一?!蓖踯娬f。

人文學科新氣象的“薪火”,從這里誕生

“昨夜星辰昨夜風,千秋靈會此宵同。一枝月桂和煙秀,人在瓊樓玉宇中?!痹谝淮喂_演講中,清華大學計算機科學與技術系教授孫茂松向聽眾展示了一首詩。

“你們能看出,這是一首從4篇古詩里摘錄句子組成的集句詩嗎?關鍵是,能看出這是機器人創作的嗎?”孫茂松問。

通過算法和深度學習,人工智能已經能媲美人類進行攝影、畫畫、作曲、寫詩。

創造性,這一人類所獨有的領域,正逐步被機器介入,由此也產生了一些倫理問題——例如,機器通過習得而非人類在感情充沛時產生的創造物,能被稱為“藝術”嗎?

同樣的問題,也易產生在人工智能賦能后的人文學術研究領域。

機器介入各類古籍研究后產生的結果,如各類統計數據、可視化“圖譜”或者“頁面”,能被認定為具有思想性的人文研究成果嗎?如果能,怎樣量化它們的學術價值?

“這些應該也算作成果的一種形式。在各個學界,對數據集的重視都在日益增強,以古籍研究為基礎的史學、文學等人文學科不應輕視,而且要更加重視。而可視化本身,一方面可以幫助學者獲得更多洞見,另一方面也能更好地向大眾進行傳播。有一些方式,是傳統手段難以達到的,是人文學科新氣象的‘薪火’,需要保護好?!北本┐髮W智能學院教授袁曉如這樣回答記者的疑問。

“無論是可視化成果本身,還是成果產生的傳播效應,都是可以計量的。當然,雖然數據驅動將智能技術引入了人文學科,但是數據的使用和意義的闡釋,還是需要人文學者的介入和指導?!蓖踯娬f。

新近出臺的《關于推進新時代古籍工作的意見》要求,“加強古籍數據流通和協同管理,實現古籍數字化資源匯聚共享”“支持古籍數字化重點單位做強做優,加強古籍數字化資源管理和開放共享”。

這背后,有著怎樣的原因?

“因為古籍智能化及以其為基礎的人文學術研究需要大量的資金投入。計算工具平臺、數據資源、技術服務團隊等,都需要投入。然而,每個研究機構的資金實力是不一致的。傳統依靠一兩位學者皓首窮經就能產生大量成果的研究方法,在數字化時代可能不適用了。為了彌補資金投入差別造成的學術鴻溝,就有必要加強共享?!蓖踯娬劦?。

“北京大學可以肩負起建設國家基礎設施的任務,同時也將這些設施對外分享,幫助偏遠地區或者學術資源不足的地方開展研究?!痹瑫匀缯f。

古籍數字化保護與利用的新樂章,已經奏響了。(記者 韓寒)


消費日報網版權及免責聲明:
1. 凡本網注明“來源:消費日報網” 的所有作品,版權均屬于消費日報網。如轉載,須注明“來源:消費日報網”。違反上述聲明者,本網將追究其相關法律責任。
2. 凡本網注明 “來源:XXX(非消費日報網)” 的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
3. 任何單位或個人認為消費日報網的內容可能涉嫌侵犯其合法權益,應及時向消費日報網書面反饋,并提供相關證明材料和理由,本網站在收到上述文件并審核后,會采取相應措施。
4. 消費日報網對于任何包含、經由鏈接、下載或其它途徑所獲得的有關本網站的任何內容、信息或廣告,不聲明或保證其正確性或可靠性。用戶自行承擔使用本網站的風險。
5. 基于技術和不可預見的原因而導致的服務中斷,或者因用戶的非法操作而造成的損失,消費日報網不負責任。
6. 如因版權和其它問題需要同本網聯系的,請在文章刊發后30日內進行。
7. 聯系郵箱:xfrbw218@163.com  電話:010-67637706

標簽:
編輯: 李志遠
相關新聞

四部門:嚴控未成年人當主播 禁止以打賞額度排名

  中國網5月7日訊日前,中央文明辦、文化和旅游部、國家廣播電視總局、國家互聯網信息辦公室對外發布《關于規范網絡直播打賞加強未成年人保護的意見》(以下簡稱《意見》)?!兑庖姟分赋?,網站平臺...

書香充盈神州大地——記首屆全民閱讀大會“全民閱讀成果展”

四月春光郁郁,正是讀書好時節。在第27個世界讀書日來到之時,首屆全民閱讀大會舉行。一幅各方倡導和推廣全民閱讀、書香充盈中華大地的畫卷,在“全民閱讀成果展”上徐徐展開。頂層規劃不斷加強“讀書已...

2022“新時代鄉村閱讀季”啟動 助力鄉村文化振興

  以“閱讀小康氣象,奮進振興征程”為主題的2022“新時代鄉村閱讀季”24日在京啟動。閱讀季中,將舉辦“農民喜愛的百種圖書”推薦、“我愛閱讀100天”讀書打卡等8項適農樂農重點活動,助力鄉村文化振興?!?..

首屆全民閱讀大會將在京舉辦

  4月23日—25日,由中宣部出版局、北京市委宣傳部主辦的首屆全民閱讀大會將在北京舉行。中國出版協會牽頭組織的全民閱讀活動館,將全面展示全國各地豐富多彩的閱讀活動、閱讀品牌內容,以及“五個一...

《2021中國網絡文學發展研究報告》發布:“Z世代”引領網絡文學風尚

中國社會科學院供圖  近年來,建黨百年、鄉村振興、全面建成小康社會、“一帶一路”和人類命運共同體、抗擊新冠肺炎疫情等重大社會議題,吸引網絡文學強烈關注。4月7日,中國社會科學院發布的《2021中...

網絡文學勾勒火熱現實

 日前,中國社會科學院文學研究所在京發布《2021中國網絡文學發展研究報告》(以下簡稱《報告》)。 《報告》共分為5個部分,分別從網絡文學實現題材轉向、網絡文學推動全民閱讀、保護激活創作...

中国大陆国产毛片高清,无码全黄毛片免费看丷,新婚人妻被公侵犯中文字幕
  • <bdo id="ikkik"><center id="ikkik"></center></bdo>
  • <bdo id="ikkik"><noscript id="ikkik"></noscript></bdo>
    <bdo id="ikkik"><center id="ikkik"></center></bdo>