您當(dāng)前的位置 : 中國甘肅網(wǎng) >> 書香隴原 >> 熱點(diǎn)資訊

數(shù)字化,讓古籍觸手可及

2024-01-11 09:13 來源:人民日報

   原標(biāo)題:匯集《永樂大典》等2200余部古籍,“識典古籍”平臺——  數(shù)字化,讓古籍觸手可及(護(hù)文化遺產(chǎn) 彰時代新義)

  以上圖片均為“識典古籍”平臺網(wǎng)頁截圖。制圖:張芳曼

    核心閱讀

    我國現(xiàn)存古籍約有20萬種,修復(fù)整理現(xiàn)存的全部古籍,可能需要300余年。古籍?dāng)?shù)字化迫在眉睫。一本古籍,如何從紙頁“搬”到網(wǎng)頁?廣泛收集圖像資料、利用現(xiàn)代技術(shù)精細(xì)化處理……自2022年10月上線以來,“識典古籍”平臺已陸續(xù)匯集經(jīng)、史、子、集等2200余部古籍,免費(fèi)面向公眾開放,為解決古籍保護(hù)和利用矛盾進(jìn)行了有益嘗試。

    “青蒿一握,以水二升漬,絞取汁,盡服之”,屠呦呦從古籍中獲得靈感,由此發(fā)現(xiàn)青蒿素;在浩瀚古籍中尋幽入微,竺可楨繪制出一條物候變遷的曲線——“竺可楨曲線”,濃縮出五千年中華大地的冷暖變化圖景。

    卷帙浩繁的中華古籍,凝結(jié)著先人的智慧,記載著璀璨的文化,訴說著綿延不絕的中華文明。歲月不居,書闕有間,部分古籍正慢慢“老去”,褪色、脆化、腐蝕,甚至稍一翻閱就會損毀。

    當(dāng)古老典籍遇到現(xiàn)代技術(shù),會產(chǎn)生什么奇妙反應(yīng)?

    一種“打開”古籍的全新方式

    “初見”“流光”“驚鴻”“珠聯(lián)”“綴玉”……點(diǎn)擊網(wǎng)頁上的標(biāo)簽,《永樂大典》的前世今生、編纂方法、歷史價值等信息,伴隨著動畫音效,呈現(xiàn)于眼前。

    點(diǎn)擊頁面右上角“閱讀大典”,進(jìn)入文本閱讀平臺?!队罉反蟮洹吩居跋衽c數(shù)字化文本相互對照,繁簡體文字隨時切換。遇生僻詞句,可選中文本,點(diǎn)擊“查看引用”,出處清晰可考。

    《永樂大典》是我國古代規(guī)模最大的類書,匯集先秦至明初各類典籍,被譽(yù)為“世界有史以來最大的百科全書”。但幾經(jīng)散佚,副本存世不及原書的4%。對學(xué)者而言,《永樂大典》是進(jìn)行學(xué)術(shù)研究的重要資料;對普通讀者來說,古籍文本往往艱澀難懂,且接觸機(jī)會不多。

    如今,《永樂大典》高清影像數(shù)據(jù)庫(第一輯)在古籍?dāng)?shù)字化平臺“識典古籍”正式上線,免費(fèi)面向公眾開放。借助現(xiàn)代數(shù)字技術(shù),厚重典籍濃縮在方寸之間,塵封已久的歷史畫卷徐徐展開,成為觸手可及的文化資源。

    “互動化、可視化的呈現(xiàn)方式更加符合當(dāng)代人的閱讀習(xí)慣,沉浸式閱讀體驗拉近了古籍與普通讀者之間的距離。”“識典古籍”平臺項目負(fù)責(zé)人之一、北京大學(xué)信息管理系助理教授位通說。

    自2022年10月上線以來,“識典古籍”平臺已陸續(xù)匯集經(jīng)、史、子、集等2200余部古籍,面向海內(nèi)外讀者免費(fèi)開放。該平臺由北京大學(xué)與抖音合作共建,致力于為用戶提供免費(fèi)、公開、穩(wěn)定、快速、方便的檢索和閱讀古籍服務(wù)。

    “識典古籍”平臺項目負(fù)責(zé)人、北京大學(xué)數(shù)字人文研究中心主任王軍希望,“識典古籍”平臺能推動散落海外的中華古籍回流,促成古籍的開放共享。

    一次解決保護(hù)和利用矛盾的嘗試

    古籍?dāng)?shù)字化為何迫切?

    王軍算過一筆賬:我國現(xiàn)存古籍約有20萬種,從1949年到2019年,共修復(fù)整理出版了近3.8萬種,修復(fù)整理現(xiàn)存的全部古籍,可能需要300余年??梢哉f,古籍修復(fù)速度趕不上老化速度。

    修復(fù)整理,只是數(shù)字化的第一步。古籍具有文物和文獻(xiàn)的雙重屬性,修復(fù)好的古籍若只被束之高閣,后續(xù)研究就無法開展,更無法發(fā)揮其文化傳承的價值。

    因此,數(shù)字化是一場生產(chǎn)效率的變革,也是一次解決古籍保護(hù)和利用矛盾的嘗試。

    一本古籍,如何從紙頁“搬”到網(wǎng)頁?

    進(jìn)入“識典古籍”平臺,平臺設(shè)計者、北京大學(xué)人工智能研究院副研究員楊浩開始演示:“古籍的數(shù)字化分為兩步。一是圖像化,我們與海內(nèi)外古籍收藏單位合作,廣泛收集古籍?dāng)?shù)字化圖像資料。二是文本化,利用人工智能技術(shù)對古籍文字進(jìn)行識別、排序、校對、結(jié)構(gòu)整理、標(biāo)點(diǎn)、實體識別等,對內(nèi)容作精細(xì)化處理。”

    楊浩上傳了一頁古籍圖像,不一會兒,文字自動識別處理完成。古籍圖像上顯現(xiàn)出不同顏色的小方框,“每個方框?qū)?yīng)一個文字,先切分再調(diào)整順序。紅色方框是提醒此處需要人工介入,來進(jìn)一步判斷和處理。”

    與此同時,古籍圖像旁已自動識別出一段文字,并可比照原圖像進(jìn)行修改調(diào)整。楊浩繼續(xù)解釋:“這個過程中,主要使用了文字識別、自動標(biāo)點(diǎn)和命名實體識別等人工智能技術(shù)。文字識別技術(shù),是對古籍?dāng)?shù)字圖像中的文字進(jìn)行單個切分,再進(jìn)行文字識別和順序讀出;自動標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對古籍自動進(jìn)行現(xiàn)代標(biāo)點(diǎn);命名實體識別技術(shù),則是通過序列標(biāo)注方法識別出文本中的人名、地名、書名、時間、官職等信息。”同時,在機(jī)器自動識別后,會有專人復(fù)查結(jié)果,進(jìn)一步提升準(zhǔn)確率。

    據(jù)悉,“識典古籍”平臺文字識別的準(zhǔn)確率達(dá)到96%以上,自動句讀的準(zhǔn)確率達(dá)到94%,命名實體識別在中古史料上的準(zhǔn)確率接近98%。

    “大部分古籍閱讀平臺或只提供掃描文稿,或只提供文本內(nèi)容,有些商業(yè)數(shù)據(jù)庫收費(fèi)高昂,獲取資源十分不便。”北京大學(xué)歷史學(xué)系學(xué)生劉沐含說,“識典古籍”平臺有著豐富的檢索功能以及分類與年代篩選功能,可以輔助開展學(xué)術(shù)研究。

    一個全流程的智能化整理平臺

    集納展示古籍?dāng)?shù)字版本,不是“識典古籍”平臺的全部。團(tuán)隊有著更大的設(shè)想——在一個平臺實現(xiàn)古籍智能整理的全部環(huán)節(jié)。

    “‘識典古籍’平臺由兩部分組成,前端是閱讀平臺,后端是古籍整理平臺。”王軍作了一個比喻,“就像是餐廳的前廳和后廚。”

    目前,作為“后廚”的古籍整理平臺,已經(jīng)設(shè)定了團(tuán)隊管理員、書目管理員、審訂員、整理員等各種用戶角色。下一步,將吸引各行各業(yè)的古籍愛好者、研究者,以眾包校對、協(xié)同審核等形式,推進(jìn)古籍整理項目和數(shù)據(jù)庫建設(shè),打造“古籍圖像上傳—文本校對整理—高質(zhì)量標(biāo)記—文本輸出”的全流程系統(tǒng)。

    哈爾濱師范大學(xué)歷史文化學(xué)院學(xué)生劉鈺昕,提前體驗了一回“整理員”角色。

    “希望能為損毀嚴(yán)重的古籍做點(diǎn)力所能及的事情。”2022年4月,看到北大數(shù)字人文研究中心的招募信息,劉鈺昕第一時間報名,成為“識典古籍”平臺的一名志愿者。

    “我參與了《春秋左傳注》《史記》《漢書》等古籍的校對工作。”談及志愿工作,劉鈺昕的熱愛之情溢于言表,“印象最深的就是,為了制定魏晉南北朝官職標(biāo)注規(guī)則,我查閱了大量的文獻(xiàn),還詳細(xì)翻閱了《文獻(xiàn)通考》的‘職官考’二十一考。”

    “新時代古籍事業(yè)發(fā)展,需要一批對古典文獻(xiàn)學(xué)、古籍保護(hù)、信息技術(shù)以及數(shù)字化流程都比較熟悉,又能將各方面有機(jī)融合的復(fù)合型人才。”北京大學(xué)中文系教授楊海崢建議,應(yīng)加強(qiáng)古籍學(xué)科理論構(gòu)建和課程體系建設(shè),編寫適合新時代古籍工作需要的專業(yè)教材,并多為學(xué)生提供實踐機(jī)會,以推進(jìn)新時代古籍人才隊伍建設(shè)。

    “古籍是中華文明延續(xù)數(shù)千年未曾中斷的有力證明,希望通過‘識典古籍’平臺以及暑期工作坊、學(xué)術(shù)研討等活動,推動中華文明傳承發(fā)展,向世界展示和傳播我們的文化之美。”王軍說。

    新年伊始,楊浩寫下了新的展望:

    “泱泱中華,歷史何其悠久,文明何其博大。2024年,希望能收集更多古籍、提升整理質(zhì)量,更好守護(hù)古籍這個文明之根!”

    (厲 燁參與采寫)

版權(quán)聲明:凡注有稿件來源為“中國甘肅網(wǎng)”的稿件,均為中國甘肅網(wǎng)版權(quán)稿件,轉(zhuǎn)載必須注明來源為“中國甘肅網(wǎng)”。

西北角西北角
中國甘肅網(wǎng)微信中國甘肅網(wǎng)微信
中國甘肅網(wǎng)微博中國甘肅網(wǎng)微博
微博甘肅微博甘肅
學(xué)習(xí)強(qiáng)國學(xué)習(xí)強(qiáng)國
今日頭條號今日頭條號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證編號:6212006002 | ICP備案:隴ICP備17001500號 | 經(jīng)營許可證編號:甘B2-20060006 | 廣播電視節(jié)目制作經(jīng)營許可證編號:(甘)字第079號增值電信業(yè)務(wù)許可證編號:甘B2__20120010

食品藥品監(jiān)管總局投訴舉報電話:12331 | 互聯(lián)網(wǎng)違法和不良信息舉報電話:12377

主辦:甘肅中甘網(wǎng)傳媒有限責(zé)任公司 | 本網(wǎng)常年法律顧問團(tuán):甘肅和諧律師事務(wù)所(0931-8580115)甘肅天旺律師事務(wù)所(0931-8864528)

Copyright © 2006 - 2016 中國甘肅網(wǎng)(GSCN.COM.CN) All Rights Reserved

網(wǎng)站簡介 | 人才招聘 | 廣告服務(wù) | 聯(lián)系我們 | 違法和不良信息舉報電話: 0931-8960109 0931-8960307(傳真)

分享到