• 歡迎來到桂林學院圖書館

    當前位置: 本館首頁   >   業界資訊   >   正文

    《長江商報(數字報)》:北京大學攜字節跳動推古籍數字化平臺,以公益方式推進古籍修復和活化

    作者:    信息來源:    發布時間: 2022-10-31   點擊數:

      1011日,由北京大學字節跳動數字人文開放實驗室研發的古籍數字化平臺識典古籍測試版正式上線。目前,該平臺涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,識典古籍將陸續完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時將全部免費開放。

      據了解,上述實驗室系今年3月北京大學與字節跳動合作成立,將人工智能技術應用于古籍資源的智能化整理。識典古籍平臺上線,即是雙方合作的最新進展。

      當前,中國的古籍數字化還處于初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,只有八萬種完成影像數字化掃描,近四萬種完成文本數字化。據專家統計,從1949年到2019年,國內共修復整理出版古籍近3.8萬種,要將現存古籍全部修復整理出來,可能需要300年時間;若利用人工智能技術輔助修復整理,大概二三十年就能完成。

      早在20216月,字節跳動與中國文物保護基金會成立古籍保護專項基金,用于國家圖書館等機構的古籍修復、人才培養,目前國圖修復珍貴古籍五十多冊。20217月,字節跳動公益聯合中國文物保護基金會、國家圖書館發起尋找古籍守護人活動,招募推動古籍活化、助力傳統文化傳承的創作者。

      據識典古籍項目負責人介紹,上述平臺當前主要使用了三種技術,包括文字識別、自動標點和命名實體識別。文字識別技術,是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別技術,則是通過序列標注識別文本中的人名、地名、書籍、時間、官職等信息。據悉,目前行業內OCR識別準確率平均為93%94%,識典古籍的準確率為96%97%。

      與其他古籍數字化平臺相比,識典古籍具有自身的特點,頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,便于專業研究人員、廣大古籍愛好者使用。同時,識典古籍書目將持續更新,后續將上線手機移動版。

      抖音集團副總裁李濤表示,此前團隊曾調研了其他機構做的類似項目,發現大部分項目是出于商業目的考慮,從公益角度出發開展的項目比較少,這在一定程度上阻礙了古籍保護工作的快速推進。因此,我們選擇通過公益的方式開展項目,這也是我們同合作的機構及專家一起討論的結果,大家覺得這樣推動項目開展可能更智能、更開放也更高效。

      據介紹,未來,識典古籍將向全社會開放古籍閱讀檢索研究能力,還將實現全自動整理校對,更高效地實現存量古籍全部數字化。同時,平臺也鼓勵擁有文獻的學者自行上傳文獻,用戶甚至可參與再創作和再闡釋,助力古籍文化傳承和研究。

      一年多來,字節跳動在古籍修復和活化上也有所進展。此前,字節跳動資助國家圖書館定向修復的珍貴古籍104冊件,現已完成50多冊件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺推出尋找古籍守護人計劃,旨在激勵創作者通過音樂、說書、繪畫、復原美食等形式,普及古籍知識、演繹古籍內容,讓古籍鮮活起來。

     

    地址:中國廣西桂林市雁山區雁中路3號 郵編:541006
    電話:0773-3696366 傳真:0773-3696266   招生咨詢電話:0773-3696116 (兼傳真)
    建議意見信箱:twxxzx@glc.edu.cn   圖文信息中心投訴電話:0773-3696221

    版權所有:桂林學院(原廣西師范大學漓江學院)圖書館

    av无码岛国动作片片段欣赏网