李玉安
(武漢大學(xué)圖書(shū)館 430072)
內(nèi)容摘要:古籍?dāng)?shù)字化,是信息時(shí)代對(duì)傳統(tǒng)紙質(zhì)歷史文獻(xiàn)傳遞與利用的最便捷的方式。在古籍?dāng)?shù)字化過(guò)程中,應(yīng)逐步將企業(yè)行為逐步轉(zhuǎn)變?yōu)閲?guó)家行為,作為國(guó)家文化主管部門、國(guó)家圖書(shū)館或者是國(guó)家古籍保護(hù)中心,應(yīng)該盡快研究和出臺(tái)相關(guān)古籍?dāng)?shù)字化標(biāo)準(zhǔn)和格式,成立相應(yīng)的專業(yè)數(shù)字化公司,結(jié)合國(guó)家古籍名錄的頒布,統(tǒng)一組織和分期分批實(shí)施古籍?dāng)?shù)字化,這不僅是科學(xué)研究事業(yè)的需要,更是開(kāi)展國(guó)家古籍保護(hù)工作的需要。
關(guān)鍵詞:古籍?dāng)?shù)字化;古籍利用;古籍保護(hù)
作者簡(jiǎn)介:李玉安,男,1957年生。武漢大學(xué)圖書(shū)館古籍部主任,研究館員。發(fā)表論文40余篇,著述7部。
古籍?dāng)?shù)字化,有兩個(gè)方面使得人們期望值不斷提高并產(chǎn)生了誤區(qū):第一是對(duì)古籍的保護(hù)的期望值,認(rèn)為只要古籍?dāng)?shù)字化了,就可以在電腦顯示器上瀏覽,珍善本古籍就可以安然入庫(kù)了。第二是人們對(duì)數(shù)字化古籍檢索和閱讀功能的期望值不斷地在提高,只要數(shù)字化了,就可以有海量的儲(chǔ)存、便捷的檢索、傳輸?shù)目焖佟⒖鐣r(shí)空的鏈接、高度的開(kāi)放等,這些優(yōu)點(diǎn),當(dāng)然是傳統(tǒng)的古籍檢索和閱覽中望塵莫及。然而,我們也不能盲目地過(guò)于樂(lè)觀,應(yīng)該認(rèn)識(shí)到,古籍?dāng)?shù)字化是一個(gè)過(guò)程,而且是一個(gè)較為漫長(zhǎng)的過(guò)程,不可能一蹴而就的。在今后一個(gè)時(shí)期內(nèi),古籍?dāng)?shù)字化的建設(shè)應(yīng)該以國(guó)家行為為主,期望國(guó)家有關(guān)主管部門做出更多的分析和研究,統(tǒng)一來(lái)組織和實(shí)施全國(guó)古籍?dāng)?shù)字化工程,如同實(shí)施全國(guó)古籍普查與保護(hù)工程一樣,成立專門的班子,納入國(guó)家文化主管部門的規(guī)劃和計(jì)劃中,有計(jì)劃、有步驟地開(kāi)展中國(guó)古籍?dāng)?shù)字化工程。
一、中國(guó)古籍?dāng)?shù)字化的建設(shè)模式最好是國(guó)家行為,而非企業(yè)行為
古籍?dāng)?shù)字化,說(shuō)到底,它牽涉到三個(gè)方面的問(wèn)題,一是組織,二是投入,三是營(yíng)銷和利用。就我國(guó)的實(shí)際情況來(lái)講,目前開(kāi)發(fā)的數(shù)字化產(chǎn)品來(lái)講,大部分是企業(yè)公司的文化營(yíng)銷行為,不是某個(gè)公司或者是某幾個(gè)圖書(shū)館聯(lián)合后,都有能力來(lái)組織和經(jīng)營(yíng)古籍?dāng)?shù)字化成果的。現(xiàn)在的問(wèn)題是,各館都在把本館的特色館藏?cái)?shù)字化,是不是就算進(jìn)行了古籍?dāng)?shù)字化呢?顯然不是,或者說(shuō)只是其中的一部分。這樣盲目進(jìn)行的數(shù)字化工程,在沒(méi)有行業(yè)和部門的規(guī)劃和計(jì)劃指導(dǎo)下的盲動(dòng),它帶來(lái)的負(fù)面影響除了重復(fù)勞動(dòng)和資源浪費(fèi)外,再就是低水平的單機(jī)(館)利用,談不上是社會(huì)效益和國(guó)家利益。
我們認(rèn)為,建設(shè)國(guó)家(省市)級(jí)的古籍?dāng)?shù)字化中心是最具權(quán)威和最為理想的建設(shè)模式。文化部應(yīng)在評(píng)估的基礎(chǔ)上立項(xiàng),在國(guó)家圖書(shū)館成立國(guó)家古籍?dāng)?shù)字化中心,包括現(xiàn)在已經(jīng)成立的國(guó)家古籍保護(hù)中心(或在其中心下面成立國(guó)家古籍?dāng)?shù)字化中心),負(fù)責(zé)開(kāi)展全國(guó)各系統(tǒng)各類型圖書(shū)館的古籍?dāng)?shù)字化工作,包括古籍?dāng)?shù)字化經(jīng)費(fèi)的落實(shí),古籍?dāng)?shù)字化標(biāo)準(zhǔn)與格式,古籍?dāng)?shù)字化的版本遴選,數(shù)字化后的文字與內(nèi)容的校勘,古籍?dāng)?shù)字化后的文獻(xiàn)保護(hù),古籍?dāng)?shù)字化成果的使用與營(yíng)銷等,都應(yīng)該在國(guó)家圖書(shū)館古籍館的領(lǐng)導(dǎo)下,逐步走出一個(gè)中國(guó)特色的且與世界通用的中國(guó)古籍?dāng)?shù)字化的建設(shè)模式來(lái)。
國(guó)家圖書(shū)館在文化部的直接領(lǐng)導(dǎo)下,于2007~2009年開(kāi)展的國(guó)家古籍珍貴名錄申報(bào)工作,已經(jīng)有了一個(gè)很好的開(kāi)端。國(guó)家圖書(shū)館應(yīng)該首先對(duì)第一批2392部珍貴古籍和第二批4478部珍貴古籍加以數(shù)字化。僅第二批名錄中,先秦兩漢的文獻(xiàn)達(dá)9部,魏晉隋唐的146部,宋遼金元的645部,明清善本3411部,民族文字文獻(xiàn)266部。這兩批珍貴名錄中的文物文獻(xiàn),不僅僅是全國(guó)各省市和大學(xué)、科學(xué)圖書(shū)館的鎮(zhèn)館之寶,也是中華民族傳統(tǒng)文獻(xiàn)的珍品和瑰寶,具有極高的文物價(jià)值和文獻(xiàn)價(jià)值。保護(hù)和利用好這些文化精品,是我們的義務(wù)和責(zé)任。率先將這些國(guó)家珍貴名錄數(shù)字化,不僅僅是文獻(xiàn)保護(hù)的需要,也是讓更多的珍善之本能提供給更多的讀者研究和利用。
在這種建設(shè)模式下,首先有利條件是經(jīng)費(fèi)的保證,國(guó)家應(yīng)該吸取相關(guān)的教訓(xùn),盡快將古籍?dāng)?shù)字化的企業(yè)行為轉(zhuǎn)變?yōu)閲?guó)家行為,建議撥出相應(yīng)的經(jīng)費(fèi)來(lái)保證古籍?dāng)?shù)字化的軟件研發(fā)和推廣,并在薄利的前提下,推廣到社會(huì),造福于科學(xué)研究。國(guó)家文化部、財(cái)政部、教育部等發(fā)起由國(guó)家圖書(shū)館在2001年組織實(shí)施完成的《中華再造善本》工程,就是一例很好的國(guó)家項(xiàng)目行為,不僅僅是保護(hù)了中華珍貴文獻(xiàn),更是造福了千萬(wàn)學(xué)子,提供了利用這些珍貴文物文獻(xiàn)的機(jī)會(huì)。
其次是數(shù)字化技術(shù)的保證,過(guò)去,我們?cè)跀?shù)字資源的語(yǔ)言與格式、存儲(chǔ)與讀寫(xiě)、編碼技術(shù)等方面,還是一瓶頸。現(xiàn)在都有了比較成熟的技術(shù),可以說(shuō),古籍?dāng)?shù)字化技術(shù)已經(jīng)不再是難關(guān)了,而現(xiàn)在的難關(guān)恰恰是在規(guī)劃與組織、規(guī)模與項(xiàng)目的問(wèn)題了。而這個(gè)問(wèn)題,更需要的是國(guó)家行為。
其三是古籍?dāng)?shù)字化專業(yè)人員的保證。有了這三寶,建設(shè)國(guó)家級(jí)和省部級(jí)的古籍?dāng)?shù)字化中心,應(yīng)該是一條便捷之路。
國(guó)外古籍?dāng)?shù)字化和數(shù)字圖書(shū)館發(fā)展的道路和歷程值得我們借鑒。以美國(guó)為例,它率先在俄亥俄州的OCLC和OhioLINK的模式上,它并不是首先建立數(shù)字化圖書(shū)館,而是首先建立圖書(shū)館網(wǎng)絡(luò),從建網(wǎng)初期的18個(gè)圖書(shū)館發(fā)展到全州的74個(gè)圖書(shū)館,實(shí)現(xiàn)了全州的統(tǒng)編聯(lián)采、網(wǎng)上互借、網(wǎng)上資源的共建共享等,到目前有四萬(wàn)多個(gè)各類型的圖書(shū)館連接,這種的社會(huì)效益是被廣大讀者認(rèn)可的。
中國(guó)古籍?dāng)?shù)字化建設(shè)的模式,應(yīng)該是在國(guó)家文化部的統(tǒng)一規(guī)劃下,依托于我國(guó)傳統(tǒng)圖書(shū)館“三大系統(tǒng)”的龍頭單位,如國(guó)家圖書(shū)館、中科院科學(xué)圖書(shū)館、清華、北大圖書(shū)館等牽頭,由國(guó)家圖書(shū)館組織相關(guān)的單位和專家,統(tǒng)一制定相關(guān)標(biāo)準(zhǔn)和格式,由全國(guó)各省、市的分中心等實(shí)施,它工作的核心應(yīng)該是古籍?dāng)?shù)字化版本信息的收集、文字的整理與加工、數(shù)據(jù)組織、鏈接和保存?zhèn)鬟f,統(tǒng)一在國(guó)家標(biāo)準(zhǔn)之內(nèi)。應(yīng)該走統(tǒng)一、聯(lián)合共建、防止重復(fù)建設(shè)的道路。至于全國(guó)古籍?dāng)?shù)字化如何確定精選優(yōu)選的標(biāo)準(zhǔn),我們應(yīng)該相信專家的判斷,更應(yīng)該相信圖書(shū)館等收藏單位的利用率和稀有情況,來(lái)挑選急需數(shù)字化的文獻(xiàn);分期分批地逐年完成珍貴古籍的數(shù)字化。
二、中國(guó)古籍?dāng)?shù)字化的相關(guān)標(biāo)準(zhǔn)的制定,只有國(guó)家行為才具權(quán)威
誠(chéng)如李國(guó)新先生斷言,中國(guó)古籍?dāng)?shù)字化,必須保證具有四大功能:一是必須實(shí)現(xiàn)文本字符的數(shù)字化,第二是具有基于超鏈接的瀏覽閱讀環(huán)境,第三是具有強(qiáng)大的檢索功能,第四是具有研究支持功能。而要求實(shí)現(xiàn)文本字符的數(shù)字化,是求得檢索的自動(dòng)化、便捷化。而要完全無(wú)誤地實(shí)現(xiàn)文本字符的數(shù)字化,文本字符的識(shí)別問(wèn)題是一個(gè)令人頭疼的問(wèn)題。恰恰在中國(guó)古籍?dāng)?shù)字化實(shí)踐中,有一個(gè)很不樂(lè)觀的事實(shí)是,有將近四分之一的古籍是難以用掃描或照相來(lái)完成文字識(shí)別的,這表現(xiàn)在稿本、手抄本、寫(xiě)本等載體上,這些文字的識(shí)別有相當(dāng)?shù)碾y度,是必須用人工干預(yù)方能完成。盡管在過(guò)去20多年中,古籍?dāng)?shù)字化的字符技術(shù)與存儲(chǔ)技術(shù)已經(jīng)逐步走向成熟,然而在處理異體字方面,目前還是要靠人工造字(符號(hào))來(lái)實(shí)現(xiàn),而人工造字雖然目前都可以實(shí)現(xiàn),但是人工編碼字體的增多,也影響了軟件的通用性,字符問(wèn)題不具備通用性,就難以完全實(shí)現(xiàn)古籍?dāng)?shù)字化。
古籍中的異體字,是比比皆是的,一般有以下幾種:第一是避諱字,第二是異體字,第三是少數(shù)民族文字,第四是手抄本中的草體字。以上這幾種文獻(xiàn),都在一定程度上限制了中國(guó)古籍?dāng)?shù)字化的轉(zhuǎn)換和檢索,退而求其次,只能用照相或掃描的圖像文件,而這些圖像文件則不具備鏈接功能和檢索功能,又制約著古籍?dāng)?shù)字化數(shù)據(jù)庫(kù)的使用功能。
要具備通用性字符的完備性,就必須對(duì)各種各樣的古籍中會(huì)出現(xiàn)的問(wèn)題做一個(gè)完備的字庫(kù),這個(gè)字庫(kù)的字?jǐn)?shù)肯定超過(guò)10萬(wàn)~15萬(wàn)個(gè)左右。而且必須考慮到各種字體的轉(zhuǎn)換問(wèn)題,例如:
1、簡(jiǎn)繁體轉(zhuǎn)換:簡(jiǎn)/簡(jiǎn) 義/義 連體/連體;
2、正體與異體:修/俢 兔/兎 刃/刄
3、正字與訛(偽)字:久/乆 派/泒 叐/犮
4、通假與被通假:詳/佯
5、古今字體:镸/長(zhǎng)/長(zhǎng)
6、新舊字形兼容:青/靑 説/說(shuō) 媼/媼
7、形近異義字:義/叉 刺/剌 諫/諌
8、避諱字體:弘/ 玄/
燁/
胤/
禛/
構(gòu)/構(gòu)
9、異體字:“夘央”/鴛鴦;
10、生造字:囯/國(guó)/國(guó) 曌/照
以上10大類型,還不包括俗字與俚語(yǔ),作為一般文獻(xiàn)來(lái)講,遇到各種的異體字,我們只要在Unicode中造一個(gè)模塊,或許就能解決,但是整個(gè)建設(shè)模式是凌亂的無(wú)序的,Unicode編碼系統(tǒng)已經(jīng)定義了七萬(wàn)多漢字,如果再擴(kuò)展數(shù)萬(wàn)個(gè)漢字,漢字字符不足問(wèn)題就會(huì)得到解決。但是,古籍?dāng)?shù)字化的內(nèi)容并不只是字符的轉(zhuǎn)換問(wèn)題,各地各館各公司隨意開(kāi)發(fā),就使得這種古籍?dāng)?shù)字化化后的通用性大為下降,降低了讀者利用數(shù)字文獻(xiàn)的欲望,而寧可去利用紙本文獻(xiàn),這與我們古籍?dāng)?shù)字化的初衷是大相徑庭的。
我們從《四庫(kù)全書(shū)》(電子版)、《中華基本古籍庫(kù)》、《國(guó)學(xué)寶典》三大古籍?dāng)?shù)字化產(chǎn)品的效果來(lái)看,各有利弊各有所長(zhǎng)。但是有一個(gè)共同之處就是對(duì)寫(xiě)本、抄本文獻(xiàn)的收錄,幾乎是很少的,原因就是在字體的限制上,僅僅靠掃描和照相的文字識(shí)別率非常之低,還不如靠人工文字錄入。我們從相關(guān)的數(shù)字化產(chǎn)品中檢索到很多錯(cuò)別字問(wèn)題,如“闖賊”寫(xiě)成“闖賦”,顯然是文字識(shí)別以后沒(méi)有校勘的問(wèn)題,以至于研究者不敢相信電子文獻(xiàn)和數(shù)字化產(chǎn)品的權(quán)威性和真實(shí)性,至少要核對(duì)原文,這是目前我們利用電子文獻(xiàn)中所普遍感到的困惑。
正如陳力先生所指出的那樣:“由于古籍傳抄、刊刻的情況千差萬(wàn)別,因此在古籍中不僅有正字與異體字、正字與俗字的問(wèn)題,還有由于各人審美觀念不同或者因抄寫(xiě)刊刻的習(xí)慣而隨意改變漢字筆劃的位置、形狀造成的異形字。……在進(jìn)行古籍?dāng)?shù)字轉(zhuǎn)換時(shí),操作人員限于水平,不能識(shí)別古籍中的異形字,不得不“依樣畫(huà)葫蘆”,生造出一些新字。由于每一個(gè)漢字都有一個(gè)對(duì)應(yīng)的編碼,如果將異形字都當(dāng)作不同的漢字,其結(jié)果就是大量生造Unicode表外字,不僅增加了錄入的工作量,更重要的是將對(duì)檢索和資源共享等產(chǎn)生重大的影響,因?yàn)槭褂谜咴跈z索時(shí)并不清楚某部書(shū)中某字的具體寫(xiě)法(甚至一部書(shū)中同樣的字也有許多種變體),因此實(shí)際上無(wú)法進(jìn)行檢索或者出現(xiàn)大量漏檢。”
所以說(shuō),在古籍?dāng)?shù)字化的過(guò)程中,必須要有古籍專業(yè)人員的參與,否則,將會(huì)對(duì)數(shù)字化質(zhì)量大打折扣。而專業(yè)人員的參與,只有在國(guó)家行為下,才會(huì)有可能組織更多更專業(yè)的古籍整理人員參與到不同的文獻(xiàn)體系中,也才能保證這些專業(yè)人員有較高的積極性和質(zhì)量保證,這是個(gè)體化公司所不能比擬的。
三、中國(guó)古籍?dāng)?shù)字化只有國(guó)家行為才能保證原文獻(xiàn)受到保護(hù)和數(shù)字化文獻(xiàn)的質(zhì)量
以《中國(guó)基本古籍庫(kù)》和《國(guó)學(xué)寶典》的數(shù)據(jù)格式為例,《中國(guó)基本古籍庫(kù)》為ABT數(shù)據(jù)格式,不可以直接對(duì)原文進(jìn)行如打印、復(fù)制、粘貼等,而需要另行圈點(diǎn)復(fù)制區(qū)位方可。《國(guó)學(xué)寶典》數(shù)據(jù)格式主要有:TXT文本文件、DBF(數(shù)據(jù)庫(kù),含文字和相關(guān)標(biāo)示)、ATM(網(wǎng)頁(yè)格式,含文字和圖片、聲音等),用戶可直接打印、復(fù)制、粘貼到自己的文檔中。這二者比較起來(lái),前者的文獻(xiàn)數(shù)量較為滿意,而后者的文獻(xiàn)編輯功能更比前者靈活優(yōu)秀。
還有更多的古籍文獻(xiàn)數(shù)字化的數(shù)據(jù)庫(kù),格式是各種各樣的,圖書(shū)館在購(gòu)買這些數(shù)字化成果時(shí),也不得不安裝多種的瀏覽器,這就給讀者利用數(shù)字化文獻(xiàn)帶來(lái)了不必要的麻煩:不同單位開(kāi)發(fā)出來(lái)的古籍?dāng)?shù)字化產(chǎn)品具有不同的文件格式。除常見(jiàn)的txt、doc、html格式外,還有exe、pdf、wdl、pdg、ebk、edb、oeb、sep、ifr、xeb等。除了一些通用格式如txt、doc、html、pdf等,大部分?jǐn)?shù)字化古籍因?yàn)槲募袷讲煌?通用功能性差,極大地影響了讀者利用數(shù)字化古籍。這也說(shuō)明文化部暨國(guó)家圖書(shū)館等主管部門盡快研究和出臺(tái)數(shù)字化產(chǎn)品的標(biāo)準(zhǔn)和規(guī)范的必要性和緊迫性,并盡可能地組織和成立自己的專業(yè)化的數(shù)字化公司。
現(xiàn)今的一些數(shù)字化公司和單位,為了追求利潤(rùn)的最大化,對(duì)古籍?dāng)?shù)字化過(guò)程后的文獻(xiàn)校勘工序,往往淡化或者沒(méi)有這個(gè)環(huán)節(jié),這勢(shì)必導(dǎo)致古籍?dāng)?shù)字化過(guò)程后的錯(cuò)誤連連。過(guò)去我們單方面地追求培養(yǎng)“具有計(jì)算機(jī)及古文獻(xiàn)兩方面知識(shí)的人才”,其實(shí)這是個(gè)誤區(qū),計(jì)算機(jī)研發(fā)和古籍文獻(xiàn)的電子校勘并不是非要復(fù)合型的,當(dāng)然有更多的這種復(fù)合型人才更好,問(wèn)題是現(xiàn)實(shí)中這種人才可真是屬于鳳毛麟角,只要重視古籍?dāng)?shù)字化以后的文字、內(nèi)容的校勘和審定,就必須組織一批古籍整理的專家把關(guān)。
只有國(guó)家行為中,制定相關(guān)嚴(yán)格的古籍保護(hù)政策,建立國(guó)家古籍保護(hù)體系。然而我們?cè)谶^(guò)去的數(shù)字化實(shí)踐中驚異地發(fā)現(xiàn),凡是委托外單位的IT掃描公司數(shù)字化的,大部分對(duì)原古籍都有嚴(yán)重的損毀,且程度還比較嚴(yán)重,因?yàn)樗鼈儗?duì)古籍沒(méi)有一種保護(hù)的情感。所以,2007年國(guó)務(wù)院辦公廳發(fā)布《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見(jiàn)》(國(guó)辦發(fā)[2007]6號(hào)),其中的第五條提出了古籍?dāng)?shù)字化的具體要求,對(duì)于承包的IT公司數(shù)字化的,一定要加大監(jiān)管和處罰的力度。為此,最為合適的辦法是:在國(guó)家行為的統(tǒng)一標(biāo)準(zhǔn)和格式下,由各古籍持有單位進(jìn)行數(shù)字化文獻(xiàn)處理,按照國(guó)家標(biāo)準(zhǔn)提交已經(jīng)數(shù)字化的文獻(xiàn)數(shù)據(jù),并由國(guó)家給予一定的勞務(wù)經(jīng)濟(jì)補(bǔ)償,以此來(lái)保證數(shù)據(jù)的準(zhǔn)確性和數(shù)字化單位的積極性。
國(guó)家對(duì)古籍整理的政策和任務(wù),也應(yīng)該更多地為古籍?dāng)?shù)字化方向給予適度地傾斜和保護(hù),這樣,有助于中國(guó)古籍保護(hù)政策的進(jìn)一步落實(shí),有助于古籍?dāng)?shù)字化的文化保護(hù)工程落到實(shí)處。
參考文獻(xiàn):
1、陳力:中文古籍?dāng)?shù)字化的再思考[J].國(guó)家圖書(shū)館學(xué)刊,2006(2):42-49.
2、陳力:古籍?dāng)?shù)字化中的漢字處理問(wèn)題[J].《古籍整理情況出版簡(jiǎn)報(bào)》2005(10)
3、李國(guó)新:中國(guó)古籍資源數(shù)字化的進(jìn)展與任務(wù)[J].大學(xué)圖書(shū)館學(xué)報(bào),2002(1):21-26,
4、劉春金等:中文古籍?dāng)?shù)字化現(xiàn)狀分析[J].江西圖書(shū)館學(xué)刊2008(2)112~113
發(fā)布日期:2009-08-18