古籍數字化簡述

黎知謹
(國家圖書館善本特藏部敦煌吐魯番資料中心)

一、數字圖書館與古籍數字化

  隨著信息化時代的到來,作為公共信息和教育服務體系重要組成部分的數字圖書館受到越來越多國家的重視。美國最早開始數字圖書館理論研究和建設。1991年俄亥俄州政府投資建立州內圖書館網絡中心,開始了數字圖書館的嘗試。1994年6月,在德克薩斯召開了以“數字圖書館理論與實踐”為主題的第一次數字圖書館的理論研究會議。同年9月,美國國家科學基金會(NSF)、國家宇航局(NASA)和國防部高級研究署(AKPA)聯合發布《數字圖書館啟動計劃》,領導、組織和資助美國的數字圖書館研究和開發。繼美國之后,英、法、德、日等國也先后提出各自的數字圖書館計劃。1995年2月25~26日,在比利時布魯塞爾召開了全球信息社會研討會,大會確立了全球數字圖書館計劃與數字博物館計劃是全球信息社會化的兩個重要組成部分。

  在中國,數字圖書館建設也已納入國家的發展戰略。1999年6月中國數字圖書館發展戰略組、中科院計算所等單位聯合主辦了“99數字圖書館論壇”。2002年5月中華人民共和國信息產業部、中國數字圖書館等8家單位聯合主辦“2002年數字圖書館國際論壇”。2002年9月,江澤民同志《在慶祝北京師范大學建校一百周年大會上的講話》中指出“加快數字圖書館等教育公共服務體系建設”。除了理論研究和思想認識,中國目前已啟動了一些工程項目,進入了數字圖書館的建設階段,例如中國高等教育文獻保障體系CALIS、中國國家科學數字圖書館工程及中國國家數字圖書館工程等。

  數字圖書館的工程建設已經全面展開,但對數字圖書館的內涵還在討論之中,盡管有各種說法,但基本認識還是一致的,即把圖書館的各種文獻轉換成數字信息并通過網絡發布和傳輸,同時采集、加工各種公共信息為全社會提供優質的信息服務和決策咨詢,使數字圖書館成為信息社會的核心部分。在我國,數字圖書館建設目前的主要工作還是對現有文獻的數字化,其中一項基本內容就是傳統古籍的數字化。

  傳統古籍的數字化有著重要的意義。傳統古籍是中國五千年文化積淀的瑰寶,維系中華傳統文明的進步與傳承,也是我國各圖書館館藏的重要組成部分。古籍的數字化和上網,是中華優秀文明由紙張等媒質流傳方式轉為數字信息等現代方式傳播的重要步驟,是對傳統的中華文化傳播和繼承方式的革命。古籍的數字化和上網,是互聯網上中文信息完整性的重要保障,對確立中華文化在互聯網上的整體優勢地位和樹立文化大國形象具有不可替代的地位。傳統古籍的數字化和上網還具有現實的價值,可以有效地解決古籍保存與使用之間的矛盾。古籍通常是1911年以前抄寫、出版的圖書,包括民國時期出版的古人所著的線裝圖書,往往具有重要的史料價值和很高的文化價值。許多古籍保存單位嚴格限制古籍的使用,以達到古籍保護的目的,但同時也使古籍的研究利用受到影響。古籍的數字化和網上發布,使研究者可以在網絡終端上瀏覽古籍,還能避免直接接觸對古籍造成的損壞,能有效地解決古籍保存和使用的矛盾,為中外學者方便地研究古籍提供便利,對古籍研究工作必將產生巨大的推動作用。

二、古籍數字化中的幾個問題

  傳統古籍不同于普通文獻,這使古籍數字化的進程面臨許多問題。在圖書館業務中,古籍整理工作相對獨立,采、編、閱、藏自成體系,古籍整理保留的舊有模式也最多,采用舊的分類法、沿用傳統的著錄方式,館際之間也沒有國家統一標準,僅分類法就有四庫法、中圖法、科圖法、人大法、劉國鈞“十五大類”等等。古籍整理的這種現狀制約了古籍數字化的進程。

  作為圖書館數字化的重要部分,人們在熱烈討論圖書館數字化的同時也開始研究古籍數字化的理論和技術問題。1992年,李致忠先生在《北京圖書館館刊》(下簡稱《北圖館刊》)發表了《略談建立中國古籍書目數據庫》一文,文章針對古籍整理中的各種問題提出建立古籍數據庫的前提條件。1995年,李針對古籍數字化面臨的問題和解決方案,在《北圖館刊》發表《再論建立中國古籍書目數據庫》,討論了中國古籍書目數據庫的建庫規范,包括中國古籍分類法,標準著錄,古籍書目的機讀格式,使用的軟件及接口,使用的字庫等。盡管李文討論的古籍書目數據庫還遠不是古籍本身的數字化,但內容已經涉及到古籍數字化各方面的重要問題,勾勒了古籍數字化整體規范的基本框架。

  在李以后,學者們從不同方面思考古籍數字化遇到的問題以及解決方案。1999年,《國家圖書館學刊》(下簡稱《館刊》)第2期發表了朱巖的《中國古籍書目數據分析》。朱文從信息處理角度對古籍書目數據做出分析,對《中國古籍善本書目》在機讀格式中的使用作出示范。制訂統一的機讀目錄是古籍數據庫建庫規范之一,機讀目錄通過對書目數據信息進行標識,完成書目的信息統計、整理和檢索。充分利用機讀目錄提供的字段標識數據信息,能夠提高數據庫的檢索功能,方便讀者的檢索查閱。《中國古籍善本書目》是由國家古籍整理出版規劃小組領導編纂的大型書目,歷時十五年完成,分經、史、子、集、叢五類,共九冊,收錄56000種善本古籍。此書的編寫仍然采用傳統的古籍編目規則,不利于編制機讀目錄。論文從檢索點的切分入手,具體討論了書名信息、責任者信息、版本信息、附注文字、分類信息、層次關系等方面信息的標引及其機讀目錄的實現等問題。

  《館刊》同一期刊登了史睿的《論中國古籍的數字化與人文學術精神》。史文從人文研究角度出發討論古籍數字化意義及解決方案,強調了在數字化時代傳統古籍整理工作的重要性。史文認為古籍數字化能為人文研究提供便捷、準確的查詢工具,但要實現這一目標,必須對傳統古籍整理工作進行變革,要求建立數據庫統一的規范,包括分類法、著錄格式都要有一定的修改,以建立國家標準,并使古籍數據庫與數字圖書館的其他數據庫保持整體的統一性。文章對計算機技術也給予了同樣的重視,分析了人文研究對計算機技術的要求,計算機技術為古籍數字化準備的條件,并討論了兩者的有效結合。

  《館刊》1999年第3期《首屆“中文古籍開發利用研討會”紀要》一文,記錄了1999年5月12-14日國家圖書館主辦的“中文古籍開發利用研討會”的內容,反映了當時古籍數字化進程。會議著重對《古籍機讀目錄格式字段表(試用稿)》作出討論,探討了制定國家標準的機讀目錄格式和統一的古籍分類法的可能性,以及圖書館界在古籍數據庫方面所作的嘗試及成果。這次會議反映了圖書館界已經開始著手文獻資源的網上服務和資源的共建共享。

  《館刊》2002年第2期刊發了鮑國強的《古籍機讀目錄的文獻連接技術及其應用》。鮑曾參與編寫《漢語文古籍機讀目錄格式使用手冊》。鮑文結合實際工作,從具體問題入手,討論古籍機讀目錄的文獻連接技術。文章分析實現文獻連接的前提條件、文獻連接的類型以及連接技術的應用,針對機讀目錄文獻連接技術的要點,展示應用機讀目錄中的文獻連接技術,以充分發揮古籍書目數據庫的文獻檢索的功能。

  由于李、朱、史、鮑都是圖書館工作人員,因而對數據的著錄格式以及機讀目錄都給予了更多的關注,更重視機讀目錄在標引、檢索中的應用,以提高數據庫的信息檢索能力,提高信息的查全率和查準率,但他們對古籍數字化本身以及帶來的相關后果考慮還嫌較少,例如:如何通過計算機與網絡技術展示出與古籍原本質地和觀感一致的數字化形象,古籍數字化后的人文和學術價值,以及對紙張等實物介質留存的古籍的影響,古籍數字化過程中,工程建設的技術、管理、運營和法律問題,如何在與國外先進技術交流中既達到吸取先進的成果和經驗,同時確保古籍的國家信息主權和版權的獨立和完整。

三、古籍數字化的主要成果

  古籍的數字化是一項龐大的系統工程,除了理論研究,還需要各方面的技術專家特別是古籍研究人員、圖書館工作人員、計算機人員以及其他相關領域的人員通力合作。目前,通過國家基金資助,公司參與以及國際合作等方式,我國的古籍數字化工作已經取得了相當的成績。目前古籍數字化的工作取得了一定的成績,已經完成或正在進行的有關古籍數字化的大型項目有:

  電子版《四庫全書》,由上海人民出版社、香港迪志公司、北京書同文公司合作開發,選用國際標準ISO/IEC10646(GB13000/Unicode)作為數字化的字符集,采用XML語言作為文獻內容的標識語言,使用OCR技術實現圖文數碼轉換,使用數據庫加知識工具庫多種信息關聯的全文檢索引擎。書同文公司是大陸最大的致力于古籍數字化的公司,現擁有《四庫全書》、《四部叢刊》、《康熙字典》的電子版。此外還有《中華文化通志》、《漢語大詞典》、《中華古漢語詞典》等產品。目前在制作《永樂大典》和《歷代石刻史料匯編》的全文檢索版。該公司亦將地方志的數字化列入了規劃。

  北京大學中文系《全唐詩》網上電子檢索系統,由211工程資助、北京大學中文系李鐸博士主持開發,歷時一年完成。該項目主體部分由《全唐詩》及《全唐詩補編》組成,輔助項由《樂府詩集》、《玉臺新詠》、《文選》等組成。參考類則由重要唐代史料《新唐書》、《舊唐書》、《唐才子傳》、《歷代詩話》、《唐詩紀事》等資料組成,共1700萬字。全部文獻錯誤率控制在三萬分之一以下(共五校),《全唐詩》文本控制在五萬分之一以下(共六校)。所有文獻均使用Unicode內碼,在Windows2000平臺上,不需要任何轉碼工具,全球任何語言的操作系統均可在網上直接檢索《全唐詩》及相關資料,并且兼容Windows9x,WindowsNT,Unix,Linux等平臺。檢索系統由兩個版面組成,一是瀏覽界面,它提供以原書為序瀏覽,瀏覽內容只限于《全唐詩》。另一界面是檢索界面,此界面是本系統的核心,可以檢索全部資料。主體部分除全文檢索功能外,另有詩題檢索、作者檢索、體裁檢索、音韻檢索等功能,檢索結果顯示詩歌全文(以首為單位)、作者小傳、詩文校注、詩歌體裁、原書頁碼、冊、卷等。

  “中國基本古籍庫”光盤工程,由北京大學劉俊文先生主持,是北京大學的重點項目,1998年經全國高校古委會的批準立項,正式啟動。著名學者季羨林、國家圖書館館長任繼愈擔任編纂委員會主任,兩院院士羅霈霖、工程院院士李國杰擔任技術委員會主任,由北大方正技術研究院提供技術支持。全套光盤庫共500張,根據中國古籍自身的特點,參照國際通行的圖書分類法分為哲科、史地、藝文、綜合4個子庫,20個大類,近百個細目。范圍涉及先秦至民國的重要典籍1萬余種,每種典籍有1個通行版本的全文信息,另附1-2個珍貴版本的圖像數據,預計全文20億字,版本圖像2千萬頁。基本可以滿足文史和其他方面研究者的研究需求。適用于中、英、日、韓多語種操作平臺,并提供多重檢索功能。用戶只需懂得一些基本的電腦操作方法,就可在極短的時間內,查找所需的資料,每次檢索均可在5秒內完成。

  臺灣中央研究院《漢籍電子文獻》,始于1984年7月,前身是為開發二十五史全文數據庫而成立的“史籍自動化計劃”,現已完成的數據庫,共約一億兩千萬字,其中較大型的是二十五史、醫藥文獻、明實錄、歷代史料筆記叢刊和十三經,這些數據庫已包括中國唐代以前的大部份重要文獻(道教資料除外);正在建設中的數據庫多達一億八千萬字,準備逐步將宋代以下的重要文獻數字化。所有文獻通過人工與機器共進行3次校對。在制作技術上得到中央研究院計算中心的支持。使用者可以在一秒之內,查到二十五史數據庫中四千萬字的任何字詞。

  “國際敦煌學項目”(The International Dunhuang Project,簡稱IDP),旨在通過國際合作促進敦煌寫卷的研究與保護。由英國圖書館開發,開始于1993年。項目計劃逐步將全世界各國各收藏單位的敦煌文獻數字化。目前可在線查看英國圖書館收藏的3萬余件中亞寫本和印本文件,以及15000余件殘卷的高質量彩色圖片。2001年3月,中國國家圖書館與英國國家圖書館簽署五年合作項目,加入此項目。中國國家圖書館國際敦煌學項目的數字化內容主要包括:1、館藏敦煌文獻數字化。使用掃描圖像展示寫卷的全部內容——正面、背面,甚至沒有文字的地方,圖像的清晰度與看原卷沒有區別。同時使用國際敦煌學項目提供的專門設計的4D數據庫詳細描述寫卷的物理性質。2、研究論著目錄數據。包含四個專題書目數據庫:敦煌吐魯番學日文論著目錄數據庫;敦煌吐魯番學西文論著目錄數據庫;敦煌文獻研究論著目錄數據庫和敦煌吐魯番學學者檔案數據庫。3、中國國內散藏敦煌文獻聯合目錄。

  以上介紹的是目前古籍數字化的重要工程項目,隨著數字圖書館建設的進行,國家資金的投入和各方面專家的努力,古籍數字化中的各種各樣的問題必將得到妥善的解決,我國五千年的優秀文化必將得到更好的傳承。

原刊《文津流觴》第八期,2002年7月

 
主站蜘蛛池模板: 色综合天天综合高清网| 天堂无码久久综合东京热 | 色欲香天天综合网站| 狠狠色综合久久婷婷| 色综合久久中文字幕网| 三级韩国一区久久二区综合| 狠狠色丁香婷婷综合| 亚洲色欲色欲综合网站| 色先锋资源久久综合5566| 亚洲狠狠爱综合影院婷婷| 亚洲伊人精品综合在合线| 国产综合成色在线视频| 久久香蕉综合色一综合色88| 另类小说图片综合网| 久久大香线蕉综合爱| 国产亚洲综合视频| 久久久综合中文字幕久久 | 色婷婷综合缴情综免费观看 | 久久久亚洲裙底偷窥综合| 图片区精品综合自拍| 亚洲AV综合色区无码二区偷拍| 国产成人综合野草| 天堂久久天堂AV色综合| 久久婷婷成人综合色综合| 国产香蕉尹人综合在线| 一本久久综合亚洲鲁鲁五月天 | 色婷婷五月综合丁香中文字幕| 久久综合九色综合欧洲| 伊人久久中文大香线蕉综合| 天天综合网网欲色| 天天做天天爱天天爽综合区| 国产综合视频在线观看一区 | 国产精品综合久成人| 国产综合激情在线亚洲第一页| 天天综合网天天做天天受| 亚洲熟女综合色一区二区三区| 亚洲综合国产成人丁香五月激情| 久久综合亚洲色一区二区三区| 激情综合丁香五月| 色综合久久综合中文小说| 国产综合无码一区二区色蜜蜜 |