摘 要:我國古籍?dāng)?shù)字化的發(fā)展過程依次經(jīng)歷了數(shù)據(jù)庫檢索系統(tǒng)、光盤版古籍、古籍網(wǎng)絡(luò)化三個階段,取得了豐碩的成果。數(shù)字化古籍具有檢索、輸出方便,有利校勘,功能多樣等優(yōu)勢,其制作技術(shù)也日臻完善,但問題仍然存在。
關(guān)鍵詞:古籍 數(shù)字化 數(shù)據(jù)庫
浩如煙海的古籍資源是中華文明特有的存留,也是祖先留下的寶貴財富。據(jù)楊家駱先生1946年統(tǒng)計,僅西漢前至清末的古籍就有181755部。傳統(tǒng)的古籍整理主要依賴手工進(jìn)行,不但操作費(fèi)力、效率不高,而且成果的利用也存在種種困難。電腦和網(wǎng)絡(luò)的出現(xiàn)與普及,不僅為古籍資源整理提供了工具,而且為其成果的傳播提供了有效的媒介。有學(xué)者認(rèn)為,數(shù)字化將成為保存、整理和利用古籍資源的趨勢。
所謂古籍?dāng)?shù)字化,是利用現(xiàn)代信息技術(shù)將古代文獻(xiàn)轉(zhuǎn)化為電子媒體的形式,通過光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播。我國古籍?dāng)?shù)字化的發(fā)展經(jīng)歷了古籍?dāng)?shù)據(jù)庫檢索系統(tǒng)、光盤版古籍、古籍網(wǎng)絡(luò)化三個階段。
一、中文古籍?dāng)?shù)據(jù)庫
古籍?dāng)?shù)據(jù)庫檢索系統(tǒng)的開發(fā)始于20世紀(jì)80年代初,主要是以數(shù)據(jù)庫的形式儲存古籍文獻(xiàn)的相關(guān)資料,作為古籍研究的輔助工具。它可以利用計算機(jī)在資料的儲存、整理、檢索、數(shù)據(jù)統(tǒng)計以及索引編制等方面的優(yōu)越性,改進(jìn)古籍文獻(xiàn)檢索方式,對古籍資源的研究和開發(fā)非常有利。
最初的古籍?dāng)?shù)據(jù)庫主要是書目數(shù)據(jù)庫,它始于南京圖書館、遼寧圖書館、浙江圖書館等省市級大型圖書館,為方便讀者相繼建立了館藏古籍書目數(shù)據(jù)庫。目前,南京圖書館的古籍書目數(shù)據(jù)庫已經(jīng)建立了40萬條中文古籍書目數(shù)據(jù)。該數(shù)據(jù)庫設(shè)有書名目錄、著者目錄、分類目錄等,可以通過輸入古籍名稱檢索該古籍的全部版本,也可以通過輸入著者名稱檢索館藏全部相關(guān)書目。
比書目數(shù)據(jù)庫在技術(shù)上更進(jìn)一步的是全文數(shù)據(jù)庫,它將古籍資源全文錄入,轉(zhuǎn)化為電子文本,供用戶查閱,提供了一種以字符為主要處理對象,根據(jù)資料內(nèi)容而不是外在特征來實現(xiàn)檢索的先進(jìn)查詢手段。
在書目數(shù)據(jù)庫與全文數(shù)據(jù)庫檢索功能的基礎(chǔ)上,出現(xiàn)了綜合檢索系統(tǒng)。此類系統(tǒng)在檢索性能上有了很大改進(jìn),不僅實現(xiàn)了任意字、詞和字符串的檢索,還實現(xiàn)了按條件檢索。檢索的范圍不再局限于書目和文本,而是對古籍的標(biāo)題、詞句、注解等實際內(nèi)容進(jìn)行全面檢索。此外,綜合檢索系統(tǒng)還往往具有多種特色檢索功能和特定的輔助功能。例如,中國社科院的《全唐詩》數(shù)據(jù)庫檢索系統(tǒng),不僅可供快速查檢《全唐詩》中任何作品的字、句、標(biāo)題、注解,還可以查找該作品在《全唐詩》中的冊、頁、行數(shù)。
表1 現(xiàn)有的部分中文古籍?dāng)?shù)據(jù)庫
數(shù)據(jù)庫名稱 |
研發(fā)單位 |
《全唐詩》《先秦魏晉南北朝詩》《全上古三代秦漢三國六朝文》《十三經(jīng)》《全唐文》《諸子集成》數(shù)據(jù)庫檢索系統(tǒng) |
中國社會科學(xué)院 |
《紅樓夢》數(shù)據(jù)庫 |
深圳大學(xué) |
《全宋詩》等古詩研究系統(tǒng) |
北京大學(xué) |
《全唐五代宋詞》檢索系統(tǒng) |
南京師范大學(xué) |
《全宋文》資料檢索系統(tǒng) |
四川大學(xué) |
宋人筆記檢索系統(tǒng)南宋主要?dú)v史文獻(xiàn)全文數(shù)據(jù)庫 |
河南大學(xué) |
《古今圖書集成》索引續(xù)編 |
廣西大學(xué) |
宋詞別集索引三種 |
湘潭大學(xué) |
《史記》全文檢索系統(tǒng) |
哈爾濱師范大學(xué) |
《貞觀政要》綜合檢索系統(tǒng) |
東北師范大學(xué)古籍整理研究所 |
漢及以前全部傳世文獻(xiàn)電腦化資料庫
魏晉南北朝全部傳世文獻(xiàn)電腦化資料庫
竹簡帛書出土文獻(xiàn)電腦人資料庫 |
香港中文大學(xué) |
古文書數(shù)據(jù)檢索系統(tǒng) |
臺灣大學(xué) |
漢籍全文資料庫《二十五史》《十三經(jīng)》和諸子數(shù)據(jù)庫 |
臺灣“中央研究院”歷史語言研究所 |
中文古籍善本書目數(shù)據(jù)庫 |
美國普林斯頓大學(xué) |
先秦諸子百家全文檢索系統(tǒng) |
挪威奧斯陸大學(xué) |
二、光盤版古籍
所謂光盤版古籍,其實就是以光盤為載體的古籍文獻(xiàn)或古籍?dāng)?shù)據(jù)庫。前期的古籍?dāng)?shù)據(jù)庫往往只是某些單位或個人出于輔助研究工作或方便用戶考慮,自行開發(fā)設(shè)計且僅在一定范圍內(nèi)使用的。隨著古籍?dāng)?shù)據(jù)庫優(yōu)越性的逐步展現(xiàn)和影響擴(kuò)大,出于保存、推廣古籍的愿望或者商業(yè)目的,光盤版古籍紛紛推出,成為當(dāng)前古籍?dāng)?shù)字化的主導(dǎo)方向。
現(xiàn)有的光盤版古籍一般有三種類型:一是圖像版,它將古籍直接以圖像格式掃描存儲,有簡單的標(biāo)題和分類,但缺少檢索手段;二是全文版,它存儲的不再是圖像,而是數(shù)字化的古籍文本,是真正意義上的數(shù)字化圖書,可實現(xiàn)全文檢索與查找;三是圖文版,它在古籍書頁圖像存儲的基礎(chǔ)上,將書中具有檢索意義的內(nèi)容數(shù)字化,并輔以數(shù)字化的電子工具書,為讀者提供快捷有效的檢索、統(tǒng)計、整理和編輯功能。
圖像版是利用掃描技術(shù)將古籍以圖像方式存入光盤,技術(shù)簡單、容易操作,而且可以保存古籍原貌,因而成為國內(nèi)采用較多的一種方式。1997年,武漢大學(xué)出版社推出的“四庫全書光盤版”就采用了這種技術(shù)。它以文淵閣本《四庫全書》為底本,將全書200余萬頁逐頁掃描,并將“總目”手工錄入,壓縮到150張光盤中。
全文版以文本形式將古籍存儲于光盤上,并在全文檢索系統(tǒng)的支持下,對文本實行逐字逐詞檢索。它雖然不能像圖像版那樣保持古籍原貌,而且文字錄入的難度也相當(dāng)大,但由于具備方便快捷的檢索功能,且占據(jù)的存儲空間要遠(yuǎn)遠(yuǎn)小于圖像版,所以仍有較大優(yōu)勢。
圖文版的優(yōu)勢較之前兩類更加明顯。其一,它既具備方便快捷的檢索功能,又能讓用戶得覽古籍原貌,這對研究者而言非常重要,因為古籍的原始面貌往往能提供很多有用的信息;其二,文本錄入不管如何校對都難免存在誤差,用戶可以對比圖像進(jìn)行查證;其三,當(dāng)前各計算機(jī)系統(tǒng)漢字字庫容量有限,出版者在錄入古籍文本時往往將異寫、通假、避諱等生僻字用常見字進(jìn)行替換,研究者需要根據(jù)圖像來查看古籍原貌。香港中文大學(xué)的漢達(dá)古籍資料庫光盤便采用了圖文對照形式,它不僅收錄了140多萬字的竹簡帛書出土文獻(xiàn),還可以在視窗系統(tǒng)上直接顯示簡帛圖片和對照文本。
三、古籍網(wǎng)絡(luò)化
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和普及,古籍資源的網(wǎng)絡(luò)化也成為一種趨勢。它主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無償發(fā)布,供互聯(lián)網(wǎng)用戶使用。例如,國學(xué)網(wǎng)就擁有《十三經(jīng)》《資治通鑒》《續(xù)資治通鑒》《楚辭》《全唐詩》《全宋詞》《人間詞話》《文心雕龍》《韓非子》《淮南子》等大量古籍的電子版。
網(wǎng)絡(luò)化是古籍?dāng)?shù)字化未來的發(fā)展趨勢。當(dāng)全國各主要圖書館實現(xiàn)古籍?dāng)?shù)字化以后,就可以建立以網(wǎng)絡(luò)為紐帶的古籍?dāng)?shù)字化地區(qū)聯(lián)合數(shù)據(jù)庫和全國性數(shù)據(jù)庫,甚至在全世界范圍內(nèi)實現(xiàn)共享。網(wǎng)絡(luò)化也能夠使更多人方便地閱讀和使用古籍,為古籍資源的研究和傳統(tǒng)文化的弘揚(yáng)提供一條嶄新的渠道。
表2 中文古籍資源相關(guān)網(wǎng)站
四、現(xiàn)存的主要問題
1.技術(shù)問題。古籍文本輸入的主要方法目前有兩個:鍵盤輸入與光學(xué)字符識別(OCR)掃描輸入。鍵盤輸入屬于手工作業(yè),效率低,成本高。OCR則是一種較為先進(jìn)的自動化信息資源輸入技術(shù),但也存在一些諸如圖像質(zhì)量不高,掃描速度低,單位成本高,識別率低等技術(shù)性問題。并且,現(xiàn)有的漢字識別系統(tǒng)多數(shù)是針對簡體的,識別字?jǐn)?shù)一般只有4000左右,識別豎排繁體古籍效果非常不理想。即使是能識別繁體漢字的系統(tǒng),也由于古籍漢字的頻度與現(xiàn)代漢語差異較大,使得識別效果一般較差。
計算機(jī)對文字的處理要通過編碼來完成,國標(biāo)字庫(GB)僅收字6763個,國標(biāo)擴(kuò)展?jié)h字字庫(GBK)收字也只有20902個。與此相對的是龐大的漢字?jǐn)?shù)量,《漢語大字典》收字近6萬,《中華字海》收字達(dá)8萬,古籍通用字約有4萬,常用異體字約為2萬。相對古籍中眾多的繁體字、異體字、通假字、避諱字而言,計算機(jī)的文字編碼不敷應(yīng)用,缺字一直是古籍電子化的瓶頸。
2.人才問題。在古籍?dāng)?shù)字化過程中,最重要的工作是要在錄入文本前對古籍進(jìn)行整理。因為古籍原本都是豎排繁體字,還包含大量的異體字、通假字等,且沒有標(biāo)點(diǎn)符號,行文格式繁瑣,必須先進(jìn)行整理,而古籍整理工作只能依賴于專業(yè)人員。所以,古籍資源數(shù)字化是傳統(tǒng)學(xué)術(shù)方法與現(xiàn)代科學(xué)技術(shù)的結(jié)合,它需要一批既懂得古籍整理又精通計算機(jī)技術(shù)的人才。現(xiàn)狀卻是古籍整理專業(yè)人員不懂電子技術(shù),計算機(jī)技術(shù)人員缺少古籍知識。古籍資源數(shù)字化專門人才的培養(yǎng)亟待提上日程。
3.統(tǒng)籌問題。我國古籍?dāng)?shù)量龐大,且往往分散各地,僅由一個單位或組織來負(fù)責(zé)完成某一專業(yè)領(lǐng)域內(nèi)的古籍書目數(shù)據(jù)庫建設(shè)是非常困難的,需要多方合作才能進(jìn)行。而國內(nèi)的古籍?dāng)?shù)字化工作缺乏一個全國性的權(quán)威機(jī)構(gòu)的統(tǒng)一指導(dǎo)和協(xié)調(diào),開發(fā)單位各自為政,熱點(diǎn)項目重復(fù)建設(shè),冷門項目少有問津。1998年一年至少出現(xiàn)了3種光盤版的四庫全書,投資額驚人,造成了人力、物力的極大浪費(fèi)。長期以來,很多單位都做了古籍書目數(shù)據(jù)庫或古文獻(xiàn)資料數(shù)據(jù)庫,并自造了相當(dāng)數(shù)量的字庫,浪費(fèi)了資源。另外,個別單位僅考慮自身利益,拒絕資源共享,致使一些數(shù)據(jù)庫涵蓋的文獻(xiàn)資料頗為有限,遠(yuǎn)未能實現(xiàn)對全國范圍內(nèi)的整體檢索。
4.標(biāo)準(zhǔn)問題。規(guī)范、統(tǒng)一的數(shù)據(jù)庫形式是數(shù)據(jù)庫的生命所在。要建立全國統(tǒng)一的古籍書目數(shù)據(jù)庫,必須有統(tǒng)一的數(shù)據(jù)格式要求。如果沒有規(guī)范的機(jī)讀目錄格式,數(shù)據(jù)庫就無法進(jìn)行交換,無法真正實現(xiàn)國家乃至世界范圍內(nèi)的資源共享。許多單位設(shè)計數(shù)據(jù)庫時采用的標(biāo)準(zhǔn)不一致,導(dǎo)致難以共享使用。此外,還必須對古籍原本進(jìn)行鑒別和統(tǒng)一著錄,執(zhí)行統(tǒng)一的分類表和分類原則,否則就會出現(xiàn)書目數(shù)據(jù)不準(zhǔn)確,造成不同的書被著錄成一種書,或者是一種書被著錄為多種書的狀況,給讀者的使用和研究帶來極大不便。
如果相關(guān)部門能夠聯(lián)合從事古籍?dāng)?shù)字化的主要單位,制訂古籍?dāng)?shù)字化的統(tǒng)一標(biāo)準(zhǔn),實現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化,在此基礎(chǔ)上進(jìn)行分工合作,建立可共享的資源體系,必定能夠促進(jìn)國內(nèi)數(shù)字化古籍的開發(fā)與利用。
5.經(jīng)費(fèi)問題。現(xiàn)在擁有古籍文獻(xiàn)資料最多的是公共圖書館。它們雖擁有豐富的文獻(xiàn)資料和文獻(xiàn)處理經(jīng)驗,但因為缺少經(jīng)費(fèi),無法購置必需的設(shè)備和軟件,也缺乏足夠的人力和相關(guān)的計算機(jī)技術(shù)人才,不少已經(jīng)規(guī)劃好的項目無法開展。只有投入足夠的經(jīng)費(fèi),才能夠解決設(shè)備、軟件短缺問題,引進(jìn)技術(shù)人員,正常開展古籍?dāng)?shù)字化工作。
參考文獻(xiàn):
[1]王純.古籍?dāng)?shù)字化之趨勢.圖書館理論與實踐,2000(3)
[2]厲莉.古籍?dāng)?shù)字化的現(xiàn)狀及對策.江西圖書館學(xué)刊,2002(1)
[3]王桂平.我國古籍?dāng)?shù)字化的現(xiàn)狀及展望.圖書情報知識,2000(4)
[4]李為實.關(guān)于古籍?dāng)?shù)字化的思考.四川圖書館學(xué)報,2002(3)
[5]王育紅.未來古籍出版的對策與趨勢分析.科技與出版,2002(3) |