中文古籍?dāng)?shù)字化的成果與存在問題

陳 陽
(作者單位:北京大學(xué)新聞與傳播學(xué)院)

  摘 要:我國古籍?dāng)?shù)字化的發(fā)展過程依次經(jīng)歷了數(shù)據(jù)庫檢索系統(tǒng)、光盤版古籍、古籍網(wǎng)絡(luò)化三個階段,取得了豐碩的成果。數(shù)字化古籍具有檢索、輸出方便,有利校勘,功能多樣等優(yōu)勢,其制作技術(shù)也日臻完善,但問題仍然存在。

  關(guān)鍵詞:古籍 數(shù)字化 數(shù)據(jù)庫

 

  浩如煙海的古籍資源是中華文明特有的存留,也是祖先留下的寶貴財富。據(jù)楊家駱先生1946年統(tǒng)計,僅西漢前至清末的古籍就有181755部。傳統(tǒng)的古籍整理主要依賴手工進(jìn)行,不但操作費(fèi)力、效率不高,而且成果的利用也存在種種困難。電腦和網(wǎng)絡(luò)的出現(xiàn)與普及,不僅為古籍資源整理提供了工具,而且為其成果的傳播提供了有效的媒介。有學(xué)者認(rèn)為,數(shù)字化將成為保存、整理和利用古籍資源的趨勢。

  所謂古籍?dāng)?shù)字化,是利用現(xiàn)代信息技術(shù)將古代文獻(xiàn)轉(zhuǎn)化為電子媒體的形式,通過光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播。我國古籍?dāng)?shù)字化的發(fā)展經(jīng)歷了古籍?dāng)?shù)據(jù)庫檢索系統(tǒng)、光盤版古籍、古籍網(wǎng)絡(luò)化三個階段。

一、中文古籍?dāng)?shù)據(jù)庫

  古籍?dāng)?shù)據(jù)庫檢索系統(tǒng)的開發(fā)始于20世紀(jì)80年代初,主要是以數(shù)據(jù)庫的形式儲存古籍文獻(xiàn)的相關(guān)資料,作為古籍研究的輔助工具。它可以利用計算機(jī)在資料的儲存、整理、檢索、數(shù)據(jù)統(tǒng)計以及索引編制等方面的優(yōu)越性,改進(jìn)古籍文獻(xiàn)檢索方式,對古籍資源的研究和開發(fā)非常有利。

  最初的古籍?dāng)?shù)據(jù)庫主要是書目數(shù)據(jù)庫,它始于南京圖書館、遼寧圖書館、浙江圖書館等省市級大型圖書館,為方便讀者相繼建立了館藏古籍書目數(shù)據(jù)庫。目前,南京圖書館的古籍書目數(shù)據(jù)庫已經(jīng)建立了40萬條中文古籍書目數(shù)據(jù)。該數(shù)據(jù)庫設(shè)有書名目錄、著者目錄、分類目錄等,可以通過輸入古籍名稱檢索該古籍的全部版本,也可以通過輸入著者名稱檢索館藏全部相關(guān)書目。

  比書目數(shù)據(jù)庫在技術(shù)上更進(jìn)一步的是全文數(shù)據(jù)庫,它將古籍資源全文錄入,轉(zhuǎn)化為電子文本,供用戶查閱,提供了一種以字符為主要處理對象,根據(jù)資料內(nèi)容而不是外在特征來實現(xiàn)檢索的先進(jìn)查詢手段。

  在書目數(shù)據(jù)庫與全文數(shù)據(jù)庫檢索功能的基礎(chǔ)上,出現(xiàn)了綜合檢索系統(tǒng)。此類系統(tǒng)在檢索性能上有了很大改進(jìn),不僅實現(xiàn)了任意字、詞和字符串的檢索,還實現(xiàn)了按條件檢索。檢索的范圍不再局限于書目和文本,而是對古籍的標(biāo)題、詞句、注解等實際內(nèi)容進(jìn)行全面檢索。此外,綜合檢索系統(tǒng)還往往具有多種特色檢索功能和特定的輔助功能。例如,中國社科院的《全唐詩》數(shù)據(jù)庫檢索系統(tǒng),不僅可供快速查檢《全唐詩》中任何作品的字、句、標(biāo)題、注解,還可以查找該作品在《全唐詩》中的冊、頁、行數(shù)。

表1 現(xiàn)有的部分中文古籍?dāng)?shù)據(jù)庫

數(shù)據(jù)庫名稱

研發(fā)單位

《全唐詩》《先秦魏晉南北朝詩》《全上古三代秦漢三國六朝文》《十三經(jīng)》《全唐文》《諸子集成》數(shù)據(jù)庫檢索系統(tǒng)

中國社會科學(xué)院

《紅樓夢》數(shù)據(jù)庫

深圳大學(xué)

《全宋詩》等古詩研究系統(tǒng)

北京大學(xué)

《全唐五代宋詞》檢索系統(tǒng)

南京師范大學(xué)

《全宋文》資料檢索系統(tǒng)

四川大學(xué)

宋人筆記檢索系統(tǒng)南宋主要?dú)v史文獻(xiàn)全文數(shù)據(jù)庫

河南大學(xué)

《古今圖書集成》索引續(xù)編

廣西大學(xué)

宋詞別集索引三種

湘潭大學(xué)

《史記》全文檢索系統(tǒng)

哈爾濱師范大學(xué)

《貞觀政要》綜合檢索系統(tǒng)

東北師范大學(xué)古籍整理研究所

漢及以前全部傳世文獻(xiàn)電腦化資料庫
魏晉南北朝全部傳世文獻(xiàn)電腦化資料庫
竹簡帛書出土文獻(xiàn)電腦人資料庫

香港中文大學(xué)

古文書數(shù)據(jù)檢索系統(tǒng)

臺灣大學(xué)

漢籍全文資料庫《二十五史》《十三經(jīng)》和諸子數(shù)據(jù)庫

臺灣“中央研究院”歷史語言研究所

中文古籍善本書目數(shù)據(jù)庫

美國普林斯頓大學(xué)

先秦諸子百家全文檢索系統(tǒng)

挪威奧斯陸大學(xué)

二、光盤版古籍

  所謂光盤版古籍,其實就是以光盤為載體的古籍文獻(xiàn)或古籍?dāng)?shù)據(jù)庫。前期的古籍?dāng)?shù)據(jù)庫往往只是某些單位或個人出于輔助研究工作或方便用戶考慮,自行開發(fā)設(shè)計且僅在一定范圍內(nèi)使用的。隨著古籍?dāng)?shù)據(jù)庫優(yōu)越性的逐步展現(xiàn)和影響擴(kuò)大,出于保存、推廣古籍的愿望或者商業(yè)目的,光盤版古籍紛紛推出,成為當(dāng)前古籍?dāng)?shù)字化的主導(dǎo)方向。

  現(xiàn)有的光盤版古籍一般有三種類型:一是圖像版,它將古籍直接以圖像格式掃描存儲,有簡單的標(biāo)題和分類,但缺少檢索手段;二是全文版,它存儲的不再是圖像,而是數(shù)字化的古籍文本,是真正意義上的數(shù)字化圖書,可實現(xiàn)全文檢索與查找;三是圖文版,它在古籍書頁圖像存儲的基礎(chǔ)上,將書中具有檢索意義的內(nèi)容數(shù)字化,并輔以數(shù)字化的電子工具書,為讀者提供快捷有效的檢索、統(tǒng)計、整理和編輯功能。

  圖像版是利用掃描技術(shù)將古籍以圖像方式存入光盤,技術(shù)簡單、容易操作,而且可以保存古籍原貌,因而成為國內(nèi)采用較多的一種方式。1997年,武漢大學(xué)出版社推出的“四庫全書光盤版”就采用了這種技術(shù)。它以文淵閣本《四庫全書》為底本,將全書200余萬頁逐頁掃描,并將“總目”手工錄入,壓縮到150張光盤中。

  全文版以文本形式將古籍存儲于光盤上,并在全文檢索系統(tǒng)的支持下,對文本實行逐字逐詞檢索。它雖然不能像圖像版那樣保持古籍原貌,而且文字錄入的難度也相當(dāng)大,但由于具備方便快捷的檢索功能,且占據(jù)的存儲空間要遠(yuǎn)遠(yuǎn)小于圖像版,所以仍有較大優(yōu)勢。

  圖文版的優(yōu)勢較之前兩類更加明顯。其一,它既具備方便快捷的檢索功能,又能讓用戶得覽古籍原貌,這對研究者而言非常重要,因為古籍的原始面貌往往能提供很多有用的信息;其二,文本錄入不管如何校對都難免存在誤差,用戶可以對比圖像進(jìn)行查證;其三,當(dāng)前各計算機(jī)系統(tǒng)漢字字庫容量有限,出版者在錄入古籍文本時往往將異寫、通假、避諱等生僻字用常見字進(jìn)行替換,研究者需要根據(jù)圖像來查看古籍原貌。香港中文大學(xué)的漢達(dá)古籍資料庫光盤便采用了圖文對照形式,它不僅收錄了140多萬字的竹簡帛書出土文獻(xiàn),還可以在視窗系統(tǒng)上直接顯示簡帛圖片和對照文本。

三、古籍網(wǎng)絡(luò)化

  隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和普及,古籍資源的網(wǎng)絡(luò)化也成為一種趨勢。它主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無償發(fā)布,供互聯(lián)網(wǎng)用戶使用。例如,國學(xué)網(wǎng)就擁有《十三經(jīng)》《資治通鑒》《續(xù)資治通鑒》《楚辭》《全唐詩》《全宋詞》《人間詞話》《文心雕龍》《韓非子》《淮南子》等大量古籍的電子版。

  網(wǎng)絡(luò)化是古籍?dāng)?shù)字化未來的發(fā)展趨勢。當(dāng)全國各主要圖書館實現(xiàn)古籍?dāng)?shù)字化以后,就可以建立以網(wǎng)絡(luò)為紐帶的古籍?dāng)?shù)字化地區(qū)聯(lián)合數(shù)據(jù)庫和全國性數(shù)據(jù)庫,甚至在全世界范圍內(nèi)實現(xiàn)共享。網(wǎng)絡(luò)化也能夠使更多人方便地閱讀和使用古籍,為古籍資源的研究和傳統(tǒng)文化的弘揚(yáng)提供一條嶄新的渠道。

表2 中文古籍資源相關(guān)網(wǎng)站

網(wǎng)站名稱

網(wǎng)址

國學(xué)網(wǎng)

 http://www.guoxue.com

中國數(shù)圖網(wǎng)

 http://www.d-library.com.cn

超星數(shù)字圖書館

 http://www.ssreader.com.cn

北京大學(xué)圖書館古籍?dāng)?shù)字特藏

 http://www.lib.pku.edu.cn

清華大學(xué)網(wǎng)上圖書館

 http://net.lib.tsinthua.edu.cn/tushu.a(chǎn)sp

天津數(shù)字圖書館

 http://159.226.177.56/gszc/gjcx.a(chǎn)sp

上海數(shù)字圖書館

 http://dllib.digilib.sh.cn/index.htm

臺灣“中央研究院”歷史語言所資料庫

 http://www.ihp.sinica.cdu.tw

臺灣漢學(xué)研究中收資料庫

 http://www.ccs.ncl.edu.tw/data.html

四、現(xiàn)存的主要問題

  1.技術(shù)問題。古籍文本輸入的主要方法目前有兩個:鍵盤輸入與光學(xué)字符識別(OCR)掃描輸入。鍵盤輸入屬于手工作業(yè),效率低,成本高。OCR則是一種較為先進(jìn)的自動化信息資源輸入技術(shù),但也存在一些諸如圖像質(zhì)量不高,掃描速度低,單位成本高,識別率低等技術(shù)性問題。并且,現(xiàn)有的漢字識別系統(tǒng)多數(shù)是針對簡體的,識別字?jǐn)?shù)一般只有4000左右,識別豎排繁體古籍效果非常不理想。即使是能識別繁體漢字的系統(tǒng),也由于古籍漢字的頻度與現(xiàn)代漢語差異較大,使得識別效果一般較差。

  計算機(jī)對文字的處理要通過編碼來完成,國標(biāo)字庫(GB)僅收字6763個,國標(biāo)擴(kuò)展?jié)h字字庫(GBK)收字也只有20902個。與此相對的是龐大的漢字?jǐn)?shù)量,《漢語大字典》收字近6萬,《中華字海》收字達(dá)8萬,古籍通用字約有4萬,常用異體字約為2萬。相對古籍中眾多的繁體字、異體字、通假字、避諱字而言,計算機(jī)的文字編碼不敷應(yīng)用,缺字一直是古籍電子化的瓶頸。

  2.人才問題。在古籍?dāng)?shù)字化過程中,最重要的工作是要在錄入文本前對古籍進(jìn)行整理。因為古籍原本都是豎排繁體字,還包含大量的異體字、通假字等,且沒有標(biāo)點(diǎn)符號,行文格式繁瑣,必須先進(jìn)行整理,而古籍整理工作只能依賴于專業(yè)人員。所以,古籍資源數(shù)字化是傳統(tǒng)學(xué)術(shù)方法與現(xiàn)代科學(xué)技術(shù)的結(jié)合,它需要一批既懂得古籍整理又精通計算機(jī)技術(shù)的人才。現(xiàn)狀卻是古籍整理專業(yè)人員不懂電子技術(shù),計算機(jī)技術(shù)人員缺少古籍知識。古籍資源數(shù)字化專門人才的培養(yǎng)亟待提上日程。

  3.統(tǒng)籌問題。我國古籍?dāng)?shù)量龐大,且往往分散各地,僅由一個單位或組織來負(fù)責(zé)完成某一專業(yè)領(lǐng)域內(nèi)的古籍書目數(shù)據(jù)庫建設(shè)是非常困難的,需要多方合作才能進(jìn)行。而國內(nèi)的古籍?dāng)?shù)字化工作缺乏一個全國性的權(quán)威機(jī)構(gòu)的統(tǒng)一指導(dǎo)和協(xié)調(diào),開發(fā)單位各自為政,熱點(diǎn)項目重復(fù)建設(shè),冷門項目少有問津。1998年一年至少出現(xiàn)了3種光盤版的四庫全書,投資額驚人,造成了人力、物力的極大浪費(fèi)。長期以來,很多單位都做了古籍書目數(shù)據(jù)庫或古文獻(xiàn)資料數(shù)據(jù)庫,并自造了相當(dāng)數(shù)量的字庫,浪費(fèi)了資源。另外,個別單位僅考慮自身利益,拒絕資源共享,致使一些數(shù)據(jù)庫涵蓋的文獻(xiàn)資料頗為有限,遠(yuǎn)未能實現(xiàn)對全國范圍內(nèi)的整體檢索。

  4.標(biāo)準(zhǔn)問題。規(guī)范、統(tǒng)一的數(shù)據(jù)庫形式是數(shù)據(jù)庫的生命所在。要建立全國統(tǒng)一的古籍書目數(shù)據(jù)庫,必須有統(tǒng)一的數(shù)據(jù)格式要求。如果沒有規(guī)范的機(jī)讀目錄格式,數(shù)據(jù)庫就無法進(jìn)行交換,無法真正實現(xiàn)國家乃至世界范圍內(nèi)的資源共享。許多單位設(shè)計數(shù)據(jù)庫時采用的標(biāo)準(zhǔn)不一致,導(dǎo)致難以共享使用。此外,還必須對古籍原本進(jìn)行鑒別和統(tǒng)一著錄,執(zhí)行統(tǒng)一的分類表和分類原則,否則就會出現(xiàn)書目數(shù)據(jù)不準(zhǔn)確,造成不同的書被著錄成一種書,或者是一種書被著錄為多種書的狀況,給讀者的使用和研究帶來極大不便。

  如果相關(guān)部門能夠聯(lián)合從事古籍?dāng)?shù)字化的主要單位,制訂古籍?dāng)?shù)字化的統(tǒng)一標(biāo)準(zhǔn),實現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化,在此基礎(chǔ)上進(jìn)行分工合作,建立可共享的資源體系,必定能夠促進(jìn)國內(nèi)數(shù)字化古籍的開發(fā)與利用。

  5.經(jīng)費(fèi)問題。現(xiàn)在擁有古籍文獻(xiàn)資料最多的是公共圖書館。它們雖擁有豐富的文獻(xiàn)資料和文獻(xiàn)處理經(jīng)驗,但因為缺少經(jīng)費(fèi),無法購置必需的設(shè)備和軟件,也缺乏足夠的人力和相關(guān)的計算機(jī)技術(shù)人才,不少已經(jīng)規(guī)劃好的項目無法開展。只有投入足夠的經(jīng)費(fèi),才能夠解決設(shè)備、軟件短缺問題,引進(jìn)技術(shù)人員,正常開展古籍?dāng)?shù)字化工作。

參考文獻(xiàn):

[1]王純.古籍?dāng)?shù)字化之趨勢.圖書館理論與實踐,2000(3)

[2]厲莉.古籍?dāng)?shù)字化的現(xiàn)狀及對策.江西圖書館學(xué)刊,2002(1)

[3]王桂平.我國古籍?dāng)?shù)字化的現(xiàn)狀及展望.圖書情報知識,2000(4)

[4]李為實.關(guān)于古籍?dāng)?shù)字化的思考.四川圖書館學(xué)報,2002(3)

[5]王育紅.未來古籍出版的對策與趨勢分析.科技與出版,2002(3)

 
主站蜘蛛池模板: 亚洲国产美国国产综合一区二区| 国产在线视频色综合| 久久婷婷五月综合色99啪ak| 九九综合九九综合| 人人狠狠综合久久亚洲婷婷 | AV色综合久久天堂AV色综合在| 一本大道加勒比久久综合| 伊人久久久大香线蕉综合直播| 一本大道久久a久久综合| 亚洲综合一区二区国产精品| 色欲人妻综合AAAAAAAA网| 狠狠色狠狠色综合曰曰| 亚洲熟女综合一区二区三区| 亚洲精品综合一二三区在线| 色综合久久天天综线观看| 亚州欧州一本综合天堂网| 亚洲国产成人久久综合区| 亚洲欧美综合精品成人导航| 国产综合一区二区| 熟女少妇色综合图区| 国产成人综合色在线观看网站| 99久久国产综合精品五月天| 亚洲精品综合一二三区在线| 亚洲综合精品香蕉久久网| 东京热TOKYO综合久久精品 | 伊人久久亚洲综合影院首页| 久久狠狠色狠狠色综合| 国产99久久亚洲综合精品| 色综合久久加勒比高清88| 天天综合网色中文字幕| 亚洲av日韩av综合| 色欲色香天天天综合网WWW| 亚洲heyzo专区无码综合| 亚洲综合一区无码精品| 天天做.天天爱.天天综合网| 99久久综合精品五月天| 亚洲国产成人久久综合一区77| 综合激情区视频一区视频二区| 久久综合日韩亚洲精品色| 伊人久久大香线焦综合四虎| 伊人色综合网一区二区三区|