數字文獻實驗室落成萬壽閣2014年7月1日,適逢中國共產黨建黨93周年之際,首都師范大學數字文獻實驗室在北京藝術博物館(萬壽寺)舉行了隆重的揭牌儀式。數字文獻實驗室由首都師范大學電子文獻研究所與北京藝術博物館聯合創立,是我國首家針對古籍數字化而建成的科研實驗室,設于長河北畔萬壽寺的中心建筑萬壽閣三層。在大數據時代的背景下,兼得首都深厚的文化底蘊,實驗室的成立可謂占盡天時地利人和。 數字文獻實驗室的宗旨在于通過數字化技術對古籍文獻進行加工、存儲和整合,進而建成國際一流水平的古籍數據資源中心。具體言之,即要具備強大的處理古籍善本、書札手稿、字畫碑帖、拓片印譜、輿圖檔案、舊報老刊等文獻資料的能力,將原始形態轉化成數字資源,進而建立超大規模數據庫以存儲海量的數據信息,并在這些信息之間建立多元聯系,進行分類管理和深度挖掘,以隨時根據學術研究需要將數據輸出為數字化產品。(詳情) |
![]() 首都師范大學電子文獻研究所首都師范大學電子文獻研究所于2003年成立,是高校系統第一個古籍數字化專業研究機構,成功研發有大型中華古籍全文檢索數據庫《國學寶典》,在古籍數字化實踐方面積累了豐富經驗。所長尹小林是數字文獻實室的發起人和主導者。 北京藝術博物館北京藝術博物館為全國重點文物保護單位,館址為明清皇家禁苑萬壽寺,有“京西小故宮”之譽,1987年正式建館。收藏有各類古代藝術品近五萬件,以及上自宋代下至民國的古籍圖書十余萬冊。數字文獻實驗室座落在博物館中萬壽閣內。 |
![]() 《頖宮禮樂全書》 清順治官刻本 |
我國存世古籍總量在20萬種以上,眾多的古籍面臨兩個問題:一是大多收藏在博物館、國家省市以及各高校的圖書館內,借閱極為不便。二是古籍的保護問題。 古籍保護主要有兩種:一是原生態保護,二是再生性保護。原生態保護是指不改變原件載體情況下,對古籍進行修復、加固及改善藏書環境。 再生性保護是指通過現代技術、數字化手段將古籍內容復制或轉移到其他載體,以達到對古籍長期保護與有效利用之目的。數字化是古籍再生性保護的重要手段。“古籍數字化”是指利用現代信息技術對古籍文獻進行加工處理,使其轉化為電子數據形式,通過光盤、網絡等介質保存和傳播。 數字文獻實驗室以保存和傳播中國優秀傳統文化為基本目的,以中國古典文獻學與相關計算機信息處理技術為依托,并在具體實踐中完成對以中文古籍為主的中國古典文獻的儲存、整理與利用的一個新型實驗室,有教學、科研、示范三大功能。 |
自動標點、自動比對和自動排印,是首都師范大學電子文獻研究所歷經多年研發成功的三大核心技術,可謂大型古籍數據庫從量變到質變的飛躍,不僅具有很高的科技含量,更具有巨大的應用價值。借助此三大技術,得以免除許多繁瑣的重復勞動,將古籍整理出版的效率和質量提升數倍,這無異于延長了學者的生命。 自動標點——基于對大規模帶標點文本的分析統計,以句型為基礎,輔以語法分析和字詞切分技術,通過模糊查找和分段比對,對無標點的古籍文獻自動加上合適的標點符號,可用于大規模古籍整理等領域。理想狀態下自動標點準確率在90%以上,機器無法完全識別的情形下會自動提示專家進行人工干預。 自動比對——能自動進行多種版本古籍的逐字比對,完成后還可在古籍中標示出文字和符號任何差異,既節省了寶貴的人力,而且有超人的效率和正確性。 自動排印——依托于大型古籍全文檢索數據庫《國學寶典》,可以將數據庫中的任意文字轉換為方正排版文件,可直接出片、打樣、印刷。版式設計任意可選,多種格式自動排版 ,疑難僻字一次補齊,目錄索引自動生成。該技術較好地解決了古籍生僻字造字、簡繁體轉換、橫豎版式等多項技術難點,較好地滿足了出版社在信息時代對古籍整理出版項目的高水準需求,可極大地降低出版成本,提高出版效率。更為個性出版,尤其是難度較高的古籍個性出版提供了廣闊的空間。運用該技術,排印速度極快,可在一刻鐘排完《紅樓夢》,一小時排完《魯迅全集》,一天排完《二十四史》,一周排完《四庫全書》。 ![]() |