《宋遼夏金元史數(shù)據(jù)庫(kù)》建設(shè)構(gòu)想
河北大學(xué)宋史研究中心
史料是歷史研究的基礎(chǔ),而古籍的全文檢索是文史研究電子化應(yīng)用最為直接和最為有效的手段。河北大學(xué)宋史研究中心的創(chuàng)立者漆俠先生十分重視古籍整理中的新技術(shù)應(yīng)用,自1989年開(kāi)始,與河北大學(xué)電子信息工程學(xué)院的漢字信息處理研究室聯(lián)合開(kāi)發(fā)《宋代文獻(xiàn)資料微機(jī)檢索系統(tǒng)》,采用自己研制的“漢字識(shí)別系統(tǒng)D-OCR”進(jìn)行錄入,完成《續(xù)資治通鑒長(zhǎng)編》(520卷,720萬(wàn)字)的錄入工作,后經(jīng)河北省教委主持鑒定,1995年在河北省第六屆發(fā)明展覽會(huì)上獲金獎(jiǎng)。該成果受到國(guó)內(nèi)外同行專家的重視,曾有多位海內(nèi)外宋史界學(xué)者前來(lái)參觀試用,并被評(píng)價(jià)為“中國(guó)大陸第一個(gè)有組織地利用現(xiàn)代化手段進(jìn)行的宋代文獻(xiàn)資料檢索系統(tǒng)。”
新世紀(jì)以來(lái),中國(guó)古籍?dāng)?shù)字化的研究和實(shí)踐已經(jīng)摒棄了手工作坊式的簡(jiǎn)單錄入形態(tài),河北大學(xué)宋史研究中心中止了此后《夷堅(jiān)志》以及數(shù)十種宋人筆記小說(shuō)的錄入工作,逐步提出建設(shè)斷代宋史數(shù)據(jù)庫(kù)的計(jì)劃。2006年10月,我中心為早日啟動(dòng)在“宋遼夏金元史數(shù)據(jù)庫(kù)”建設(shè)工作,當(dāng)年在北京召開(kāi)了有宋遼夏金元史專家、文獻(xiàn)學(xué)專家和文獻(xiàn)數(shù)字化專家參加的咨詢會(huì)議,明確了建設(shè)該專業(yè)數(shù)據(jù)庫(kù)的初步構(gòu)想和功能要求。2007年我中心成立了數(shù)據(jù)庫(kù)建設(shè)工作工作領(lǐng)導(dǎo)小組,向河北大學(xué)申請(qǐng)了“宋遼夏金元史數(shù)據(jù)庫(kù)”的專項(xiàng)建設(shè)經(jīng)費(fèi)。2007年底在原有工作的基礎(chǔ)上召開(kāi)了第三次數(shù)據(jù)庫(kù)工作會(huì)議,討論了賈文龍、肖愛(ài)民起草的《<宋遼夏金元數(shù)據(jù)庫(kù)>建設(shè)的幾個(gè)重要問(wèn)題》的報(bào)告。我們認(rèn)為建設(shè)斷代數(shù)據(jù)庫(kù),首先要處理好以下問(wèn)題:
1、斷代數(shù)據(jù)庫(kù)的學(xué)術(shù)價(jià)值定位
在研制“宋遼夏金元史數(shù)據(jù)庫(kù)”之時(shí),通史類古籍全文軟件已有相當(dāng)高的成就,其中迪志公司開(kāi)發(fā)的《文淵閣四庫(kù)全書》和北京書同文數(shù)字化技術(shù)有限公司開(kāi)發(fā)的《四部叢刊》已經(jīng)成為學(xué)者檢索史料的優(yōu)先選擇,另外還有廣西金海灣電子音像出版社和廣西師范大學(xué)出版社出版的《古今圖書集成》對(duì)通史史料的檢索也有相當(dāng)幫助。2002年以來(lái),北京愛(ài)如生公司研發(fā)、劉俊文先生主持了《中國(guó)基本古籍庫(kù)》項(xiàng)目,這是古籍全文數(shù)字化的重大工程,并于2005年10月完成。
我們提出建立斷代史料庫(kù)是建立在宋代古籍存世特點(diǎn)的基礎(chǔ)上的。宋代發(fā)明了活字印刷,雕版印刷技術(shù)臻于完善,宋體字作為印刷業(yè)重要字體開(kāi)始成型,所以胡應(yīng)麟說(shuō):“雕本肇自隋,行于唐世,擴(kuò)于五代,精于宋人。”宋代科舉制度的發(fā)達(dá)也促進(jìn)了個(gè)人文集的大量出現(xiàn),據(jù)四川大學(xué)古籍整理研究所編纂的《現(xiàn)存宋人別集版本目錄》,現(xiàn)在宋人文集計(jì)739部,作者631人。而書籍的大量印行使許多文集和規(guī)模較大的著作都能經(jīng)印刷而得以存世。同時(shí)宋朝滅亡時(shí)圖書典籍未遭受太大損失,元初編寫宋史能參考的圖書資料相當(dāng)豐富。因此宋朝雖存在時(shí)間約300年,但保存下來(lái)的資料超過(guò)了先秦至隋唐的史料之總和。漆俠先生講:“對(duì)宋代文獻(xiàn),一個(gè)用功的學(xué)者,一輩子才可以讀完。”目前還有相當(dāng)數(shù)量的宋代史籍沒(méi)有數(shù)據(jù)化,僅《續(xù)修四庫(kù)全書》中就存在相當(dāng)數(shù)量的未經(jīng)數(shù)據(jù)化的宋代文獻(xiàn)。此外大而全的數(shù)據(jù)庫(kù)開(kāi)發(fā)進(jìn)程緩慢,校對(duì)不容易精準(zhǔn),影響了其檢索的可靠性。大于數(shù)據(jù)庫(kù)對(duì)各個(gè)朝代文獻(xiàn)都擇有重要的書籍,而并非各個(gè)時(shí)期全部文獻(xiàn)的集合,如《中國(guó)基本古籍庫(kù)》只收錄10000種古籍。目前宋代以前的古代文獻(xiàn)因?yàn)榇媸罃?shù)量不大,其全文數(shù)字化工作已經(jīng)接近完成,而明清文獻(xiàn)的全部數(shù)字化可能還要持續(xù)上百年。因此以宋夏金元(916——1367)約五百年的存世文獻(xiàn)為主建立斷代數(shù)據(jù)庫(kù)既有相當(dāng)高的難度,又有相當(dāng)大的價(jià)值。
2、簡(jiǎn)體與繁體的選擇問(wèn)題
馬克思說(shuō),生產(chǎn)工具促進(jìn)生產(chǎn)力。馬克思在經(jīng)典著作中論述人類歷史發(fā)展階段劃分時(shí)指出:歷史發(fā)展階段是以人類采用什么生產(chǎn)工具及相應(yīng)的生產(chǎn)方法來(lái)劃分的,所以分成石器時(shí)代、鐵器時(shí)代等。推動(dòng)歷史發(fā)展,生產(chǎn)工具的變革是最積極、最首要的因素。人類的生產(chǎn)工具由手動(dòng)發(fā)展到具備動(dòng)力,馬克思認(rèn)為這是一次人類生產(chǎn)工具的大革命。現(xiàn)在計(jì)算機(jī)技術(shù)的發(fā)展,使人類的生產(chǎn)工具具有一定智能性,這是人類生產(chǎn)工具新的又一具有劃時(shí)代意義的發(fā)展。
對(duì)古籍?dāng)?shù)字化而言,檢索手段是這個(gè)智能性的主要體現(xiàn),通過(guò)史料的查詢可以把原來(lái)枯燥的史料翻檢工作變?yōu)榧夹g(shù)性操作。因此衡量古籍?dāng)?shù)字化成果的重要標(biāo)準(zhǔn)是文獻(xiàn)檢索的精度與準(zhǔn)度,檢索結(jié)果的精準(zhǔn)性下降,就會(huì)給學(xué)術(shù)研究帶來(lái)片面性。
目前在古籍?dāng)?shù)字化過(guò)程中,繁簡(jiǎn)轉(zhuǎn)化過(guò)程出現(xiàn)了很多問(wèn)題,眾多專家因此認(rèn)為繁體優(yōu)于簡(jiǎn)體。但是我們認(rèn)為應(yīng)該首先考慮簡(jiǎn)體與繁體是否能達(dá)到檢索的精度與準(zhǔn)度。古籍?dāng)?shù)字化工作是對(duì)文獻(xiàn)的又一次整理過(guò)程,而整理過(guò)程就會(huì)有所修正,如中華書局作為國(guó)內(nèi)最主要的古籍整理單位,其總編室在其《古籍校點(diǎn)釋例》中就說(shuō):“古書中的古今字、通假字、異體字、俗體字等,一律不出校。宋代以前的古書及有關(guān)語(yǔ)言文字學(xué)的著作,異體字一般不改。元明以後的書,不常見(jiàn)的異體字及不合規(guī)範(fàn)的俗體字,如「島」作「」,「沿」作「
」、「惡」作「悪」、「船」作「舡」、「銜」作「啣」之類,可根據(jù)實(shí)際情況改成通行的繁體字,改了也不出校。版刻中的錯(cuò)字,如「焰」刻作「熖」、「祇」(只)刻作「秖」、「千」刻作「
」、「餐」刻作「飱」,「寤寐」刻作「窹
」之類,應(yīng)改成規(guī)範(fàn)的繁體字。一本書內(nèi)的用字應(yīng)力求統(tǒng)一。用簡(jiǎn)體字排印的書可另作規(guī)定。”可見(jiàn)許多古籍中的異體字與俗體字已經(jīng)舍棄,讀者所見(jiàn)已非古籍原貌。古籍?dāng)?shù)字化過(guò)程中,這些異體字與俗體字都是可能舍棄的。我國(guó)目前實(shí)行的簡(jiǎn)化字方案中,多是一一對(duì)應(yīng)關(guān)系,此外則是多個(gè)繁體合成一個(gè)簡(jiǎn)體,如“里程”的“里”和“里面”的“里”合并,“面孔”的“面”和“面條”的“面”合并,“皇后”的“后”和“以后”的“后”合并,“憂郁”的“郁”和“郁郁蔥蔥”的“郁”合并。在古籍檢索中,關(guān)鍵詞檢索是最常用的手段,關(guān)鍵詞中包含簡(jiǎn)體字基本不會(huì)影響對(duì)史料的檢索。如果需要單字檢索,諸如字頻統(tǒng)計(jì)一類,簡(jiǎn)體檢索的結(jié)果可能多于繁體,但是對(duì)檢索結(jié)果可以設(shè)定條件進(jìn)行再處理。
如果將檢索詞整理成工具書,并附在史料庫(kù)前,可說(shuō)明整理凡例,作為使用者的參考,那么用簡(jiǎn)體進(jìn)行古籍?dāng)?shù)字化整理也是可行的。
3、文字與圖像的關(guān)聯(lián)問(wèn)題
探討文字與圖像的關(guān)系,我們從高校教學(xué)的需要與實(shí)踐出發(fā),認(rèn)為應(yīng)要充分考慮檢索與閱讀的關(guān)系問(wèn)題。閱讀是學(xué)術(shù)研究的常態(tài)活動(dòng),其與檢索的關(guān)系應(yīng)該是主輔關(guān)系。無(wú)庸置疑,數(shù)字化后的古籍也具有可閱讀功能,高質(zhì)量的數(shù)字化成果可以達(dá)到萬(wàn)分之一左右的差錯(cuò)率,完全可以用以滿足一般性的閱讀要求。但是數(shù)字化后的古籍常常是純文字史料,如電子版《四庫(kù)全書》則連標(biāo)點(diǎn)也沒(méi)有,并不便于學(xué)者閱讀。此外古籍?dāng)?shù)字化過(guò)程中還會(huì)產(chǎn)生錄入錯(cuò)誤,又不具有原始性質(zhì),因而不能成為閱讀信本,也不能成為真正的版本。
對(duì)數(shù)字化古籍加上現(xiàn)代標(biāo)點(diǎn),對(duì)方便學(xué)者閱讀古籍的作用是顯而易見(jiàn)的,但是也容易引起版權(quán)問(wèn)題。我們認(rèn)為數(shù)字化古籍將來(lái)的出路可能在于實(shí)現(xiàn)電子標(biāo)點(diǎn),北京大學(xué)李鐸博士曾設(shè)想將來(lái)可以利用計(jì)算機(jī)智能化特點(diǎn),讓計(jì)算機(jī)自主學(xué)習(xí),標(biāo)點(diǎn)《四庫(kù)全書》。標(biāo)點(diǎn)數(shù)字化過(guò)古籍,并不需要象點(diǎn)校紙本一樣嚴(yán)謹(jǐn)無(wú)誤,能實(shí)現(xiàn)基本的句讀,即使標(biāo)點(diǎn)的長(zhǎng)一些,也是可以接受的。因?yàn)槭褂谜邚?fù)制史料后,還會(huì)有再標(biāo)點(diǎn)與史料核對(duì)的過(guò)程。隨著數(shù)據(jù)庫(kù)技術(shù)的進(jìn)步,計(jì)算機(jī)對(duì)史料進(jìn)行“粗標(biāo)點(diǎn)”是可能實(shí)現(xiàn)的。當(dāng)然最好的情況是專家學(xué)者抽出時(shí)間與精力,對(duì)數(shù)字化古籍進(jìn)行點(diǎn)校,則是造福學(xué)林之舉。
因?yàn)閿?shù)字化后的古籍不能成為閱讀信本,筆者感到在實(shí)際學(xué)術(shù)研究過(guò)程中文本閱讀(包含文獻(xiàn)掃描的圖像版)與電子閱讀并不是同步的。常見(jiàn)的情況是先讀了史料,然后再根據(jù)需要檢索史料;其次是先檢索史料,再去核對(duì)文本。一邊閱讀圖像,一邊檢索復(fù)制,在文字與圖像間往返切換的情況并不多。
古籍?dāng)?shù)字化工作應(yīng)該考慮如何與前人整理版本的銜接。古籍不同于近現(xiàn)代文本,其中知識(shí)與觀念的時(shí)代差異,是需要專家學(xué)者去辨析注釋的。從古至今,各個(gè)時(shí)期都有學(xué)者對(duì)前人著述進(jìn)行整理。《四庫(kù)全書》是清代乾隆年間官修的規(guī)模龐大的百科叢書,共收書3400余種,實(shí)際也可以看作是一次大規(guī)模的版本整理的文化盛事。目前大型數(shù)據(jù)庫(kù)都是以圖文對(duì)照的形式解決這個(gè)問(wèn)題的,即原文與文字是可以顯示的,當(dāng)然是最為完美的解決途徑。但是圖文對(duì)照的成本很高,每個(gè)頁(yè)面都要單獨(dú)處理,如《四庫(kù)全書》有79000多卷,頁(yè)面又?jǐn)?shù)倍于此數(shù),因此對(duì)財(cái)力提出很高的要求。
鑒于學(xué)術(shù)研究過(guò)程中閱讀與檢索可以前后進(jìn)行,古籍?dāng)?shù)字化中文字與圖像也可以分開(kāi),又要借助于一定手段而建立聯(lián)系。這一點(diǎn)尤其適于高等院校的教學(xué)與科研工作。
從以上考慮出發(fā),我們提出一些《宋遼夏金元史數(shù)據(jù)庫(kù)》的建設(shè)思路,希望數(shù)據(jù)庫(kù)既有資料性,又有學(xué)術(shù)性;不僅可以用于科研,還要利于教學(xué)工作;含有動(dòng)態(tài)建設(shè)過(guò)程,而在相當(dāng)時(shí)段內(nèi)保持一定的先進(jìn)性。下面提出這些思路,借這次大會(huì)的機(jī)會(huì),以求教于方家。
一、以時(shí)人詩(shī)文為數(shù)據(jù)庫(kù)主體
新技術(shù)革命的浪潮深刻地消解了歷史、文學(xué)、哲學(xué)等學(xué)科間的材料隔膜,古籍?dāng)?shù)字化更是突破了傳統(tǒng)的經(jīng)、史、子、集的古籍分類方式。而歷史學(xué)研究對(duì)象涉及面廣的特性決定了歷史學(xué)者必須從其他學(xué)科查尋資料。歷史學(xué)者在檢索文獻(xiàn)時(shí)使用綜合性數(shù)據(jù)庫(kù),利用計(jì)算機(jī)所具有模糊查詢識(shí)別能力,可以通過(guò)簡(jiǎn)單的檢索便在自己不熟悉的斷代和領(lǐng)域找到相關(guān)的資料。因此斷代史古籍?dāng)?shù)字化可以以散漫的古籍分類方式構(gòu)建數(shù)據(jù)庫(kù),可以以檢索詞的方式回到以古人個(gè)體中心構(gòu)建文獻(xiàn)的模式。而古人的個(gè)體創(chuàng)作,基本上只有詩(shī)與文兩種。因些《宋遼夏金元史數(shù)據(jù)庫(kù)》以《全宋詩(shī)文數(shù)據(jù)庫(kù)》、《全遼詩(shī)文數(shù)據(jù)庫(kù)》、《全金詩(shī)文數(shù)據(jù)庫(kù)》、《全元詩(shī)文數(shù)據(jù)庫(kù)》為主體。
二、以篇目章節(jié)檢索為圖文對(duì)照間的聯(lián)系
古籍?dāng)?shù)字化的最理想的成果形式是能直接引用,圖文對(duì)照是能達(dá)到直接引用的最有效途徑。《宋遼夏金元史數(shù)據(jù)庫(kù)》計(jì)劃建立《古籍書影數(shù)據(jù)庫(kù)》,首先實(shí)現(xiàn)書名章目的檢索,并以對(duì)照原文制作資料專題的方式,基本達(dá)到直接引用的要求。
三、以工具書庫(kù)作為檢索詞的延伸
史料是歷史研究的基礎(chǔ)。學(xué)術(shù)上的突破,往往依賴于新材料的發(fā)現(xiàn)。古代典籍浩如煙海,傳統(tǒng)的史學(xué)研究在某種程度上,就是發(fā)掘史料功夫的較量。而數(shù)據(jù)庫(kù)能夠把原來(lái)枯燥的史料翻檢工作變?yōu)榧夹g(shù)性操作,就某種意義而言,數(shù)據(jù)庫(kù)建設(shè)將引發(fā)傳統(tǒng)史學(xué)研究的革命。為方便史料查詢,就要豐富檢索詞,所以第一屆古籍?dāng)?shù)字化國(guó)際會(huì)議外,李偉國(guó)等多位專家提出建立同位語(yǔ)數(shù)據(jù)庫(kù)的倡議。《宋遼夏金元史數(shù)據(jù)庫(kù)》似建立《宋人存世著述書目》、《全宋人名資料庫(kù)》(姓名、字號(hào)、籍貫、事跡、生卒、著述)、《宋遼夏金元史地名資料庫(kù)》、《宋遼夏金元史官名資料庫(kù)》,以為使用者豐富檢索詞,并提供查詢幫助工具。
四、以影像資料為文本古籍的補(bǔ)充
史料包括歷史文獻(xiàn)與史跡遺存,《宋遼夏金元史數(shù)據(jù)庫(kù)》還計(jì)劃建立《宋遼夏金元史文物考古圖片庫(kù)》和《宋遼夏金元史文物教學(xué)資料庫(kù)》,主要包括這一時(shí)期的書法、繪畫、書影、兵器、建筑、雕塑、印章、壁畫、瓷器、金銀器、服飾、車舟等各方面文物考古圖片。王國(guó)維先生兩重證據(jù)法之一即為“取地下之實(shí)物與紙上之遺書辨證”,進(jìn)行古史新證。《考古圖片庫(kù)》是影像時(shí)代二重史證在教學(xué)方面的努力。
五、以論著索引為學(xué)術(shù)前沿的反映
《宋遼夏金元史數(shù)據(jù)庫(kù)》計(jì)劃集資料性與信息性為一體,包含20世紀(jì)至今宋遼金史百年論著索引,反映了海內(nèi)外宋遼夏金元史的最新研究成果,希望成為最全、最新的宋元時(shí)期的古籍及研究前沿的數(shù)字化成果。目前我們與方建新先生、劉浦江先生已合作完成《二十世紀(jì)宋史研究百年論文索引》、《二十世紀(jì)遼金史研究百年論文索引》;宋遼夏金元史博士、碩士學(xué)位論文索引已有一定成績(jī)。中國(guó)宋史研究會(huì)秘書處設(shè)在河北大學(xué)宋史研究中心,會(huì)員刊物《宋史研究通訊》每年都要收集當(dāng)年度的論著索引。
六、以網(wǎng)絡(luò)化豐富發(fā)展
作為斷代史料數(shù)據(jù)庫(kù),其數(shù)字化過(guò)程盡量避免畢其功于一役式建設(shè),而應(yīng)該不斷向精細(xì)化發(fā)展。如果停留在史料錄入的初級(jí)階段,必然會(huì)被大量通史類數(shù)據(jù)庫(kù)所取代,從而失去存在價(jià)值,成為重復(fù)建設(shè)。《宋遼夏金元史數(shù)據(jù)庫(kù)》項(xiàng)目設(shè)立之初,就是作為教育部省屬高校人文社科重點(diǎn)研究基地的標(biāo)志性成果而開(kāi)展的,所以承擔(dān)著為宋史學(xué)界提供信息資料中心的責(zé)任。因此《宋遼夏金元史數(shù)據(jù)庫(kù)》還要與中國(guó)宋史研究會(huì)的網(wǎng)站相結(jié)合,應(yīng)用系統(tǒng)架構(gòu)上也要從“C/S”(“客戶端——服務(wù)器”模式)向“B/S”(“瀏覽器——服務(wù)器”模式)轉(zhuǎn)變,以便于學(xué)者通過(guò)網(wǎng)頁(yè)瀏覽器直接訪問(wèn)數(shù)據(jù)庫(kù),使《宋遼夏金元史數(shù)據(jù)庫(kù)》成為治宋史研究者的學(xué)術(shù)公器。
小結(jié)
2008年7月,河北大學(xué)宋史研究中心與北京國(guó)學(xué)時(shí)代公司簽署協(xié)議,決定共同投資300萬(wàn)元研制《宋遼夏金元史數(shù)據(jù)庫(kù)》。河北大學(xué)宋史研究中心與北京國(guó)學(xué)時(shí)代文化傳播有限公司雙方優(yōu)勢(shì)互補(bǔ)、強(qiáng)強(qiáng)合作,《宋遼夏金元史數(shù)據(jù)庫(kù)》可以完成對(duì)宋遼夏金元時(shí)期基本的重要的古籍、碑刻及文物考古圖片的數(shù)字化使命。《宋遼夏金元史數(shù)據(jù)庫(kù)》既注重資料性,也注重工具性和信息性,我們相信《宋遼夏金元史數(shù)據(jù)庫(kù)》可以最終建設(shè)成具有良好的應(yīng)用性與專業(yè)性、達(dá)到國(guó)際先進(jìn)水準(zhǔn)的宋遼夏金元史學(xué)術(shù)研究平臺(tái)。
{附記:《宋遼夏金元史電子數(shù)據(jù)庫(kù)》后期稱為《宋遼夏金元史電子館》。2010年8月6日,“《宋遼夏金元史電子館》成果鑒定會(huì)”在北京順利舉行,來(lái)自中國(guó)社會(huì)科學(xué)院、清華大學(xué)、北京大學(xué)、中國(guó)人民大學(xué)、河南大學(xué)、首都師范大學(xué)、中華書局等單位的多位著名學(xué)者,認(rèn)為本項(xiàng)目成果是教育部重點(diǎn)研究基地與專業(yè)古籍?dāng)?shù)字化公司聯(lián)合攻關(guān)的結(jié)晶,該成果的完成和投入使用,對(duì)于中國(guó)古代史教學(xué)科研手段現(xiàn)代化具有重要意義。}
基金項(xiàng)目:本文為教育部基地項(xiàng)目《宋代地方法制研究》(10JJD770009)、國(guó)家社會(huì)科學(xué)青年項(xiàng)目《宋朝地方司法結(jié)構(gòu)變革與治理效能研究》(11CFX010)的階段研究成果。