試論中國古籍數字化與人文學術研究

史 睿

  【內容提要】本文從人文研究角度出發討論古籍數字化意義及解決方案,強調了在數字化時代傳統古籍整理工作的重要性。史文認為古籍數字化能為人文研究提供便捷、準確的查詢工具,但要實現這一目標,必須對傳統古籍整理工作進行變革,要求建立數據庫統一的規范,包括分類法、著錄格式都要有一定的修改,以建立國家標準,并使古籍數據庫與數字圖書館的其他數據庫保持整體的統一性。文章對計算機技術也給予了同樣的重視,分析了人文研究對計算機技術的要求,計算機技術為古籍數字化準備的條件,并討論了兩者的有效結合。

  【關 鍵 詞】人文學術研究;數據庫;知識發現;中國古籍數字化解決方案;圖書館自動化

 

  中國古籍的數字化是一個非常復雜的跨學科課題,本來應由專家來解決,絕非學識淺陋如不佞者所應妄言的。但是,計算機產業界的專家對于計算機技術在人文學術研究上的應用缺少了解和興趣,而學術界的專家都忙于各自的名山事業,兩方面又無良好的溝通,所以創獲甚少。此前雖有學術機構曾進行過類似課題的研究,獲得了初步的成果,但舊的思路和成果已很難跟上計算機技術飛速發展的步伐[1]。鑒于目前中國古籍數字化問題的日益緊迫和相關專題研究的相對滯后,筆者不揣谫陋,撰此小文,以期引起有關專家就例如數字化、網絡化時代對人文學術研究提出怎樣的機遇和挑戰,如何利用計算機及網絡技術推動人文學術研究的發展以及如何規劃、評估古籍(以至一切圖書文獻)的數字化方案等問題的深入討論。

一、古籍數字化——現代學術研究的基礎

  我們中華民族創造了無比豐富的歷史文化遺產,對于世界文化具有巨大貢獻。古代典籍是中國歷史文化遺產最為重要的物質載體,面對蘊藏于浩如煙海的古籍之中的文化思想,究竟應該如何解讀,如何履踐,不免令人有“一部十七史,不知從何說起”的感覺。胡適之先生認為傳統的經史研究存在范圍太狹窄,注重功力而忽略理解,缺乏參考比較的材料等積弊,故以清代三百年間第一流人才的心思精力,都用在經學的范圍內,卻只取得了一點點的成果,關鍵是缺少對古籍的系統整理,又不注重學術成果的積累,兩千四百多卷的《清經解》,大多是一堆流水爛帳,沒有條理,沒有系統,人人從“粵若稽古”、“關關雎鳩”說起,怪不得學者看了要望洋興嘆了[2]。針對清儒治學方法的缺陷,胡適之先生著重提出,必須系統地整理古籍,包括索引式、結帳式和專史式的整理。此后,學界編纂了多種引得、通檢、索引、匯編等工具書,部分完成了索引式整理的目標,拜前輩學者之賜,我們查閱古籍不知享受了多少便利。但是我們也發現,中國古籍汗牛充棟,經過系統整理的畢竟只是少數,方便的檢索工具也還嫌太少,離胡適之先生的標準還有相當的距離。即使是已有索引的古籍,我們用來解決具體問題時仍會感覺到種種不便。至于結帳式的整理,則尚未受到學術界的普遍重視,而在未有結帳式整理之前,所作的專史研究,其完整性、可靠性都值得懷疑。劉家和先生在《〈崔述與中國學術史研究〉序》中說道:“記得從前有一位學術前輩說過:‘上窮碧落下黃泉,動手動腳找材料。'這已很不容易。而現在是要‘上窮碧落下黃泉,以求有所新發現',這就更是難上加難了。由此我想到了美國科學哲學家庫恩(Thomas Kuhn,1922—1996)的一篇文章《必要的張力:科學研究中的傳統和創新》(The Essential Tension:Tradition and Innovation in Scientific Research)。他說,科學的發現,既需要發散思維,即對于傳統具有突破性的創新思維,又必須有向心思維,即深入傳統的思維。這是因為,沒有前一思維,就會限于傳統而失去創新的可能;沒有后一種思維,就不能深知傳統中的問題與病因所在,就不知到底為何需要突破,應該從何突破,即使突破也破不到點子上,何來創新?所以他概括地說:‘成功的科學家常常必須同時扮演傳統主義者和離經叛道者的角色。'庫恩講的是科學發展的要求,其實對于史學的發展來說,這幾乎是同樣適用的。這就是要‘上窮碧落下黃泉',要有微觀與宏觀、傳統與創新兩極之間的張力。”[3]確如劉家和先生所說,經常保持這種張力是推動學術創新的要素,如果認真反省一下就不難發現,在人文學術研究中,我們有時忽視對古籍文本的深入解讀,導致研究結論發生偏差;有時又被前人的成說所左右,不能有所推進。為了中國現代學術的自主、自立,促進中外學術的對話,我們必須比以前任何時候都更加致力于中華元典以至全部古代典籍的深入解讀,以求在此基礎之上作出更大的學術突破。有人看不起古籍點校或是索引、目錄、匯編的編纂,可又有誰能說自己的名山事業從未受惠于點校本《二十四史》、《資治通鑒》或是《二十史朔閏表》、《中國歷史地圖集》、《十三經索引》、《二十四史人名索引》這樣經典的點校本或檢索工具呢?人文學術研究是個人的事業,一個人的精力和時間是有限的,而人類知識的積累又絕非一個人所能把握的,如果我們不能大幅度地提高自己的學習效率,而是將有限的時間、精力都花費在浩繁、瑣碎的翻檢工作之中,那么還談何學術進步呢?為此,我們需要有經過認真梳理的、反映全部前人研究成果的古籍文本供學術界使用,需要有便捷、高效、準確的查詢工具為人文學術研究服務。

  古籍數字化是一項重要的人文學術研究基礎工程,不僅需要全體學術研究者和計算機專家的勤奮和努力,更需要現代化技術的支持。我們認為,利用計算機及網絡技術進行深入的古籍整理工作,在當今數字化時代勢在必行,它必將大幅度地提高我們學習中國古代文化的效率,定會將學者的時間和精力從艱苦而繁瑣的爬梳、翻檢工作中解放出來,用于推動人文學術研究的發展,對此我們充滿了希望。同時我們還應認識到,古籍文獻的數字化實際上也是全部中文文獻數字化事業的一個復雜特例,它所積累的經驗和取得的成果必能廣泛地應用于后者,而中文文獻的數字化又是數字化圖書館事業的一部分,是國家知識基礎設施(National Knowledge Infrastructure簡稱NKI)的一部分[4],具有十分廣闊的應用前景。此外,積極建設網上中文資源庫,打破某些國家或某種語言對網絡資源的壟斷,這將有利于中外學術文化的交流,樹立中國人的學術自信心和自尊心。

二、古籍數字化的理論思考

  當前,衡量個人電腦的性能標準已不再是中央處理芯片(CPU)的時鐘頻率,而是看它的整體可用性如何。軟件亦是如此,應用放在了越來越重要的位置上。由于缺乏利益驅動,計算機軟件在傳統人文學術研究領域的應用還遠未提到中國計算機產業界的議事日程上來,這不能不說是一種遺憾。目前,臺灣中央研究院已建立起十余個重要的古籍資料庫,并逐漸開放于網絡[5]。近期日本出版了一本《電腦中國學》(東京好文出版社,1998年11月),書中探討了計算機技術應用于中國研究的問題,并且提供了大量與中國研究有關的網址,其中絕大部分是屬于臺灣學術機構的。本來應由最具人才資源和技術優勢的大陸學術界完成的事業,卻被臺灣學術界搶先了一步,不能不說又是一重遺憾。最近,大陸出版界推出了幾種大型的電子版古籍[6],引起了社會的普遍關注。然而此類電子讀物大多難以差強人意,究其原因就在于我國的計算機產業界很少有人專門從事計算機技術在傳統人文學術研究領域的應用研究,對中國古籍及其研究方法也缺乏必要的了解。同時,文史研究者不能勇敢地迎接數字化時代對人文學術研究提出的挑戰與機遇,積極地參與古籍的數字化工作,則是另一個重要原因。問題的關鍵在于人文學術研究向計算機提出怎樣的要求,當代計算機技術又為古籍數字化準備了哪些條件,兩者究竟如何契合。

  筆者認為,古籍數字化的理論問題比技術問題更為重要,因為一旦理論發生了偏差,技術越高明,則解決方案越是難以成功。而此種理論是基于對人文學術研究一般過程和計算機數據處理基本原理的認識之上的,所以只有學術界與計算機產業界的密切合作,才能達成盡善盡美的結果。筆者認為,以人文學術研究的角度來看,古代典籍一方面是古代先賢完整地表述思想體系的“撰述”,另一方面又可看作是保存古代歷史斷片的“記注”[7]。研究先賢的思想,固然要尊重其“撰述”的完整性及其內部的邏輯,將其還原于它的時代語境之中,作“同情之了解”;而研究歷史則如藝術家一般,將零星的斷片(即史料)小心地補綴成一件完整的藝術品。無論何種研究,每當我們將零星的斷片按照一定規則重新排列、組合以后,都會有一種豁然開朗的感覺,因為我們由此發現了那些材料在原有脈絡(context)之中難于發現的字面之外的第二甚至第三重含義,以及它們之間的各種內在關聯,我們對這些含義和關聯作進一步的分析或綜合,總會有新的發現及解釋,這就是人文學術研究的一般過程。其具體操作過程往往是突破文獻的原有結構,將原文獻劃分為若干基本單位,提取其中指向內部含義的關鍵詞,依照它們的屬性進行排序、篩選、統計和分類,比較相關文獻中的關鍵詞,尋求他們之間的相關性。這一過程在手工查閱紙本文獻的時代,需要學者具有深湛的功力,否則很難得到完美的解決,因為紙本古籍大多缺少必要的索引,而紙本檢索工具既不能隨讀者的要求提供多種排檢方式,又無法按照讀者的要求產生再生資源,可用性有限;此外,研究者對文獻本身的認識是隨著研究工作的深入而逐步清晰起來的,其工作初期往往難以明確提出與自己的研究題目完全切合的全部關鍵詞,而是要在較大范圍內進行模糊查詢或漸進式查詢,這更是紙本檢索工具所不能解決的。當然我們也看到,傳統的點校本古籍為數字化古籍提供了基本樣式,紙本檢索工具為數字化古籍的查詢積累了有益的經驗。中華書局版《二十四史》,尤其是《前四史》的點校,可稱古籍整理的優秀范本,它吸收了此前的全部前人校勘的成果,為學術界提供了準確、可靠的古籍文本。洪煨蓮先生主持的哈佛燕京學社編纂的引得叢書、譚其驤先生主編的《中國歷史地圖集》、中華書局出版的《二十四史人名索引》、上海圖書館編纂的《中國叢書綜錄》等,都是嘉惠士林的工具書。引得叢書的語詞逐字索引堪稱同類索引的典范,《二十四史人名索引》嚴格的規范控制使讀者獲益匪淺,《中國歷史地圖集》所具備的古今地名對照、地名方位查詢等檢索功能,絕非其他類別的工具書可以替代。數字化古籍一方面應繼承紙本古籍及檢索工具的優點,一方面又要克服其原有缺陷,淋漓盡致地發揮電子媒體的優勢。鑒于中國古籍中知識發現的復雜性及其廣闊的應用前景,筆者認為古籍數字化事業對計算機產業界是一個嚴峻的挑戰,無論是系統、軟件在中文環境下的易用性,還是信息產業的運營和服務的水平,都須經過古籍數字化事業的檢驗才是真正的合格。

  雖然我們一再強調計算機技術一日千里的發展,但還是有必要檢討一下其為古籍數字化所作的技術準備。首先,網絡技術的飛速發展使信息資源的共享成為可能。幾年前網絡通信還是少數人的奢侈品,如今信息高速公路已經修到我們每個人的家門口,將世界連接為一個名副其實的地球村。依托這條無遠弗屆的信息通衢,人類的知識傳播和知識創新勢必發生新的躍遷。國際互聯網提高了電子文獻的檢索效率,擴大了服務范圍,具有便捷的信息傳遞方式,節省了遠程通信費用[8]。其次,新一代高性能計算機的海量存儲和秒級運算能力十分驚人,以至普通人已難于預測它明天的發展。海量存儲設備已逐漸普及,我們再也不必在空間和時間的矛盾中苦苦掙扎了。電腦CPU的時鐘頻率一路突飛猛進,1GHz的CPU也指日可待了。復次,新的國際計算機信息處理標準的制定和實施為建構全球統一的信息處理系統奠定了堅實的基礎。我們知道,最初的計算機使用的字符集是為人熟知的ASCII碼,即基本拉丁字符集(ISO646),僅有96個拉丁字母和符號。隨著計算機技術在世界各國的普遍運用,多文種信息處理的要求也應運而生,基本拉丁字符集顯然已無法滿足這種需求,各國所運用的地區性編碼又為全球信息處理一體化設置了障礙。于是在國際標準化組織(ISO)引導下,由國際計算機界、語言文字學界的專家共同制定了通用多八位編碼字符集(ISO/IEC10646)。我們現在所使用的中文版Windows95就是實現該標準的一個子集,它采用了中國信息標準化委員會1995年11月制定的漢字內碼擴展規范(GBK),收入漢字兩萬多個[9],雖然目前還不能完全滿足古籍數字化的要求,但畢竟為漢字信息處理的國際化和標準化開辟了道路,為中國準備了一把開啟數字化時代大門的鑰匙。再次,新的計算機應用技術,如非鍵盤輸入技術[10],中文數據庫技術[11],多媒體壓縮與傳送技術、安全保密技術、自然語言理解技術[12],尤其是數據挖掘技術的出現,為古籍數字化事業提供了有力的支持。數據挖掘技術又稱數據庫中的知識發現(Knowledge Discovery in Database,簡稱KDD),是指從大量數據中提取出可信的、新穎的、有效的并易于理解的知識的高級處理過程[13]。它已廣泛應用于市場行銷、產品制造、通信網絡管理、金融投資、自然科學研究等許多領域[14]。我們相信,數據挖掘技術運用于人文研究領域,必將創造出更卓越的業績。非鍵盤輸入技術使文獻載體轉換方式發生了一場革命,例如自動識別輸入技術(ODR)使海量信息輸入的工作量大大降低,清華紫光公司所研制的非特定人手寫識別軟件僅用三個月時間就將一部《文淵閣本四庫全書》輸入計算機內,為同類工作積累了寶貴的技術財富[15]。最后,面向對象的編程工具的出現使人性化應用界面的編制變得輕而易舉。

  如上所述,計算機的特長正在于海量數據的存儲、運算(包括排序、篩選、統計和分類)和傳輸,更可深入文獻內部,實現知識的發現,這與人文研究工作的一般過程,即關鍵詞的查詢、排序、篩選、分類、統計及其相關性的分析十分相似。既然如此,那么我們就發現了計算機科技運用于人文學術研究領域的基本契合點,我們只須以某種方式溝通兩者的語言,就可以充分地發揮計算機的優勢,大幅度地提高人文學術研究的效率,為學術積累和學術評論提供更為便利的條件和優化的環境,同時,也就找到了比較完善的古籍數字化方案。

  目前對于數據庫廠商來說是一個千載難逢的良機,無論是近期的國家古籍整理與規劃小組的古籍光盤工程、北京圖書館的數字化圖書館工程,還是未來的國家知識基礎設施工程,肯定會帶來計算機網絡工程、系統集成、數據通信、軟件開發以及服務方面的巨額需求,誰先期投入這一事業,制定出一系列行業標準,誰就占據了相關產業的制高點,分得最大的市場份額,必將成為全國以至全球的信息產業界業巨子。

三、古籍數字化解決方案之我見

  數字化古籍究竟是什么樣的呢?它需要具備怎樣的功能呢?其數據須經如何處理,使用何種技術才能保證它具備我們需要的功能呢?這些都是擺在我們面前的重要問題。

  首先,好的版本和必要的校勘是古籍數字化的重要前提,沒有這一前提,一切功能將無從談起。我們所談的古籍數字化事業,其目的不是為大眾提供普及讀本,而是為學術文化的繁榮奠定基礎,這應是參與古籍數字化事業的專家的共識。其次,即筆者曾經一再強調的,數字化古籍的功能不僅在于一般的信息查詢,更重要的是古籍文獻中的知識發現。最后,它應符合各種國際通用標準,具有開放性,可以在網絡上傳輸,實現信息資源共享。中國古籍數字化的過程,基本上可以視為古籍全文數據庫的生成過程。一篇古籍文獻輸入計算機,就形成了無標引的全文數據庫,即半結構化的數據庫。目前以中國古籍為內容的電子讀物多為此類產品,但這遠不能發揮計算機的技術優勢,也難以達到研究者的要求,其最大的缺陷就在于它不能象結構化數據庫一樣經由排序、篩選、分類和統計之類的管理過程產生再生資源,更談不上知識發現。因此,對古籍中的數據進行充分的分析和處理,制成結構化數據庫,與半結構化數據庫相結合,才是較為完美的方案。

  如所周知,傳統的紙本工具書,包括索引、類編、目錄、年表、歷史地圖等,盡管已經提供了相當多的便利,但是仍然不能擺脫紙本檢索工具的種種缺陷,如門類不齊全,排檢方式單一,缺少綜合條件和漸進式檢索方式,無法產生再生資源,只能部分地完成信息查詢功能,不能做到海量數據中的知識發現,攜帶不便、復制困難又在其次。筆者所設想的數字化古籍解決方案正是為了解決紙本媒介存在的上述問題,確保信息查詢的查準率和查詢率,并實現海量信息中的知識發現。其重要步驟包括古籍文獻的載體轉換、置標,關鍵詞的規范控制、屬性描述及多途徑排檢。

  載體轉換是指從紙本文獻到電子文獻的轉換過程,要求快速而又準確,是保證實現進一步文獻處理目標的基礎。傳統的中文鍵盤輸入技術需要新的突破,走出萬“碼”奔騰或萬“碼”齊喑的怪圈,才能適應海量信息的、快速準確的載體轉換的要求。非鍵盤輸入技術的逐漸成熟顯然已向鍵盤輸入技術提出了挑戰,清華紫光開發的一種自動識別軟件具有非特定人手寫識別功能,識別率達到90%以上,如果再加上邏輯或語法判斷,則可進一步提高識別率。

  置標或標引是指通過對文獻的分析,選用確切的檢索標志以反映文獻內容的過程。置標,由于古籍文獻中含有非常豐富而寶貴的學術信息,因此必須通過置標這一過程,充分地發掘其中的內涵,以便研究者利用。置標的目的是提取關鍵詞,做數據的預處理,故應足夠充分,不放過任何有學術信息的關鍵詞,力求做到從任何角度都能檢索到讀者需要的信息。清代大學者章學誠曾提出,將古籍中人名、地號、官階、書目等一切有名可治、有數可稽者都制成韻編(即索引),以收事半功倍之效[16]。一般來說,各類文獻中的人名、地名、官名、書名、年代、典故、制度、族屬、語詞、范疇和其它專名等關鍵詞都須制成索引,另外如文獻的主題、體裁、結構、類別、標題、韻腳等特征也要當作關鍵詞來提取。目前,計算機尚無法正確標引古代漢語文獻,所以將已有的紙本檢索工具轉換為數據庫,并開發出標引古籍的智能化軟件,是古籍數字化的當務之急。當然,鑒于古代漢語的復雜性及文獻特征的多樣性,依托熟悉古籍的專家仍然是必不可少的。

  規范控制是為了保證文獻標目的一致性,以便有效地實現對標目進行統一管理的手段,規范標目記錄以下內容:規范標目,規范標目與相關標目之間的參照關系,選取標目及確定其參照關系的依據。規范控制在紙本檢索工具中曾被廣泛運用,并取得了很大成功。但是我們必須注意到,以往的檢索工具多為專名類型索引,在非專名類型索引的規范控制方面,學術界的成果和經驗還不多,既有的主題詞表不僅不能涵蓋古籍中復雜的語言現象,更難于跟上人文學術的發展進程,我們有必要重新建立規范古籍語詞及專名的標準。

  排檢是指檢索工具的排序方式和檢索途徑,它限定著讀者的檢索策略,直接影響檢索效果。一般的紙本檢索工具多使用以關鍵詞外部特征為序的排檢方式,不能滿足讀者的信息查詢及知識發現的要求。紙本檢索工具包含著這樣的預設,即認為讀者事先已確知所須檢索的關鍵詞,但實際上往往并非如此,抑或即使確知,依然需要按其內部特征追尋關鍵詞之間的相關性。不難發現,依關鍵詞外部特征排檢的檢索工具提供給讀者的關鍵詞之間的關聯信息較少[17],而依關鍵詞內部特征排檢的檢索工具則可提供更多類型的關聯信息,便于讀者發現新知識。但是限于紙本媒體的特征,多功能檢索工具的編纂難度很大,而數字化古籍正適于實現多途徑排檢功能,這就要用到關鍵詞的屬性描述方法。

  描述關鍵詞的各種屬性是為了計算機能依照屬性對關鍵詞進行分類、排序、篩選、統計之類的管理,產生再生資源,以利知識發現。所謂關鍵詞的屬性描述,其實質就是將關鍵詞的屬性特征作認真嚴格的分析,制成數據庫,再將目前為止學術界所了解的有關它的全部知識都填入數據庫之中。研究越深入,所能反映的關鍵詞的內涵及其關聯就越豐富,檢索效果越理想,發現的知識越新穎而可信,所以我們必須毫無遺漏地將已經取得的研究成果納入其中。于是,這一數據庫的設計就變得十分重要。不同類型的關鍵詞具有不同的屬性,如人名的屬性顯然與書名不同。同一類型關鍵詞因其主題不同又有所區別,如帝王有即位年代的屬性,士大夫以下則沒有。同時,任何關鍵詞的屬性還因其規定性特征有所不同,如官僚所任之官有時代之別,又有品階和類型(如散官、勛官、職事官、加官、贈官等)之別。為了處理如上十分復雜的情況,我們可以利用中國機讀目錄格式(China MARC)的思路來設計這種可實現知識發現功能的關鍵詞數據庫。機讀目錄格式是一種多層次的開放式數據庫,它原本用來詳盡地描述書目型關鍵詞的各種屬性,并進行基本管理。由于它允許用戶自由定義各字段和子字段的內容,因此可以改造為一種描述和管理各類關鍵詞的數據庫。理論上,它應是一種通用的綜合的信息管理數據庫,能管理各種不同類型的數據,包括文本、日期、邏輯、圖像、視頻、聲音等[18],符合(或者創造)國際標準,具有多個檢索出口,可通過多種檢索途徑實現信息查詢和知識發現。它分為記錄、字段和子字段三個層次。首先,以對一個關鍵詞的全面描述為一條記錄。其次,以記錄之下的通用字段描述不同類型關鍵詞的相同屬性,如以規范標目字段描述各類關鍵詞的規范標目屬性,以非規范標目字段描述相關非規范標目屬性,以主題字段描述各類關鍵詞的主題屬性,以款目連接字段描述此關鍵詞與它關鍵詞之間的相關性,以附注字段作自然語言的附注等;又以特殊字段分別描述各類關鍵詞的特殊屬性,如以籍貫·郡望字段、歷官字段、家族譜系字段來描述人名類關鍵詞,以四部類別字段、載體形態字段描述書目類關鍵詞等;最后,以字段之下的子字段反映屬性的規定性特征,如以歷官字段之下的品階子字段描述歷官的品階,以類別子字段描述歷官的類別,以部門子字段描述歷官所屬的部門,以年代子字段描述歷官的起訖時間等。常規字段規定為必須使用,非常規字段或非相關字段則可選用,字段或子字段依其性質規定為可以重復和不可重復兩類。一般的單一條件檢索,其檢索結果(報表)可以表格形式輸出,如果是復合條件的檢索,其結果又不便以表格形式表達,就需要編制合乎傳統檢索習慣的其它輸出形式,如職官年表、百官志、家譜、歷史地圖等形式。以人名索引為例,依照職官年表的方式排檢,可由一個人名查到他的同僚、前任、繼任,如果按照百官志的序列排檢,又可查到他的上級、下級,如果按照譜牒的形式排檢,則可查到他的祖先、兄弟、姊妹、子孫及姻親。以地名索引為例,依照歷史地圖的形式排檢,可查到地名的方位,所屬的自然區域、行政區劃以及它的歷史沿革。機讀目錄格式包含了供檢索用的紀錄頭標和指針,這樣經由基本的數據庫管理手段,我們就可以實現數據庫的多途徑排檢功能了。

  除了以上有關古籍全文檢索數據庫生成的問題之外,還有應用界面的問題需要探討。筆者認為,瀏覽界面是古籍數字化解決方案中必不可少的組成部分,如果沒有瀏覽界面,那么古籍就會變成一堆支離破碎的詞匯或段落,無法閱讀,而閱讀是數字化古籍的首要功能,不能放棄[19]。數字化古籍的瀏覽界面最好以國際通用的HTML語言編寫,使用普通的網絡瀏覽器閱讀,可用于網絡發布和光盤(CD-Web)制作。目錄、正文和注釋等內容可層級顯示,讀者可使用目錄樹直接跳轉到需要閱讀的正文,也可根據需要僅顯示正文或顯示部分以至全部注釋。充分利用電子媒體的特性,正文之中必要的地方應插入聲音、圖像或視頻剪輯等多媒體,方便讀者。它以超文本鏈接(包括網絡映射)揭示文獻或關鍵詞的意義及其間的內在關系,例如讀者遇到陌生的關鍵詞時可以跳轉到網絡上權威辭書的相應辭條或最新的研究成果,以掃除閱讀障礙,深入解讀文獻;另一種情況是讀者閱讀此文獻時能夠追尋其中引用的彼文獻,點擊關鍵詞之后可跳轉到引用文獻的相應篇章、段落或條目;更重要的是以超文本鏈接的形式將古籍篇章中的基本問題與歷代的研究成果聯系起來。當然,這樣預設的超文本鏈接必須準確地反映知識體系之間的層次和關聯,如果稍有偏差,就會發生失之毫厘,謬以千里的情形。瀏覽界面最好配合智能網絡搜索引擎,允許讀者建立自定義的超鏈接。另外一個應用界面是查詢界面,它要與關鍵詞數據庫相配合,具有不同類別的各種關鍵詞、同類關鍵詞的不同屬性及相同屬性的不同規定性特征三層查詢條件,還有各種查詢條件之間邏輯關系的組合形式。關鍵詞數據庫作為后臺數據庫支持讀者信息查詢和知識發現的要求。其檢索結果以HTML文檔的形式顯示于瀏覽器上,建立檢索結果到所出文獻的超文本鏈接,讀者可由此跳轉至原文獻,以實現指向文獻內部意義的知識發現[20]。無論是瀏覽界面,還是查詢界面,都必須具備人性化特征,符合讀者的檢索習慣,并輔以必要實用的使用說明(幫助),不給讀者增加學習負擔。這樣就構成了完整的古籍數字化方案。

四、余論:學習的革命

  圖書文獻的數字化是數字化圖書館事業的基礎,而數字化圖書館以及國家知識基礎設施的建立勢必引發一場知識傳播或學習的革命。以往人類傳播知識的方式不外文字記載和言傳身教兩類,前者傳播范圍廣泛,后者易于表述經驗,而國家知識基礎設施將兼有兩者的特長,它通過計算機對公共知識的處理,模擬人類學習知識和形成智能的過程,使人類較為容易地獲取知識和經驗[21]。更重要的是,僅僅依靠圖書分類法來建構人類知識體系的時代已一去不復返了,利用計算機及網絡技術,我們能更全面、完整而確切地表達自己的知識、經驗和智慧以及它們之間的關聯,前賢可以在不知不覺之中將他們畢生積累的知識和經驗轉化為后學的常識,而且可以不受時空限制地迅速傳播。因而人類的學習過程也將變得日益輕松、富于人性化和高效率。那時,我們的學習將從巨人肩膀上起步,徹底拋掉碾碎人類鮮活智慧的教科書,更可以避免不負責任的教育者加之于幼小心靈的傷害。網絡將在其中扮演重要角色,它成為一種獨立媒體已經為時不遠了,它必將與其他四大媒體并駕齊驅,成為傳播人類知識的重要媒介,并且決定著我們的思維與生活方式。它還將有助于打破強勢話語對知識、思想、信仰的壟斷,消除大眾文化對精英文化的扭曲,作為民主制度的一部分,服務于社會。

【注釋】

[1]中國社會科學院計算機室曾經在欒貴明等先生指導下就此課題進行過探索,見田奕《古籍整理與研究的電腦化》(載《中國文化》9期,1994年2月,85—89頁),但其電子版產品并未公開。

[2]胡適《〈國學季刊〉發刊宣言》,原載《國學季刊》一卷一號,1923年1月,此據歐陽哲生編《胡適文集》三,5—17頁,北京大學出版社,1998年12月。

[3]邵東方《崔述與中國學術史研究》,《序》1—10頁,人民出版社,1998年4月。

[4]國家知識基礎設施是應用計算機及網絡存儲和傳播人類知識、經驗和智慧,改變人類知識獲取方式的全新體系,包括通信網絡、高性能計算機群、知識庫系統和應用界面四個層次。見曹存根《NKI——21世紀的科技熱點》,載《計算機世界》1998年50期,12月28日,產品與技術版,D1,3頁。

[5]見黃寬重、劉增貴《中央研究院人文計算的回顧與前瞻》,載《漢學研究通訊》總66期, 145—168頁(臺灣中央研究院計算中心的網址為(http://www.sinica.edu.tw)。但是中央研究院的資料庫也不能完成知識發現功能,所以還有進一步研究的必要。

[6]如武漢大學出版社的《文淵閣四庫全書》光盤、上海人民出版社與北京書同文電腦公司合作的同名光盤,以及文物出版社、人民美術出版社、上海人民美術出版社與北京銀冠電腦公司合作的《中國美術全集》光盤等。

[7]撰述和記注系借用章學誠的概念,見《文史通義·書教》下,《章學誠遺書》,4頁,文物出版社,1985年8月。

[8]見董小英《Internet——數據庫產業發展的新機遇》,載《互聯網世界》1999年1期,36—38頁。

[9]見朱巖《多文種信息處理與圖書館現代化》,載《現代圖書情報》1996年5期,6—9頁。北京中易電子公司和中國標準化技術開發公司聯合開發的“全漢橋2000”漢字系統很可能成為未來的國際新標準,它擁有十萬漢字字庫。(見《鄭碼超級漢字系統收集10萬漢字》,載《計算機世界》1999年6期,2月8日,綜合新聞版,A11頁)可用于古籍整理出版,電子版高麗大藏經已用此系統制作成功。(新江、吳寧《光盤版大藏經時不我待》,載《世界宗教文化》1998年4期,6—9頁。)

[10]見侯怡波《“筆”妙自生花——非鍵盤輸入技術時代正向我們走來》,載《互聯網世界》1999年1期,70—74頁。

[11]見王珊、林耀森《中文數據庫的研究與展望》,載《計算機世界》1998年34期,9月7日,技術專題版,D1頁。又馬應章《中文數據庫——數據庫本地化的重要議題》,載《計算機世界》同期,D4—5頁。

[12]孟小峰、王珊《中文數據庫自然語言界面研究》,載《計算機世界》1998年34期,技術專題版,D8—9頁。

[13]見高文《KDD:數據庫中的知識發現》,載《計算機世界》1998年37期,8月28日,技術專題版,D1頁。又朱廷劭《數據挖掘——極具發展前景的新領域》,載《計算機世界》1999年1 期,1月4日,產品與技術版,C14頁,文中提供了三個網址訪問KDD in China :清華AILINUX(http://ailinux.ml.org/~kdd)、中山國際(http://202.96.189.28/kdd/index.html)和沈陽SYNET(http://202.112.29.35/kdd)。

[14]見朱廷劭、王軍《數據挖掘應用》,載《計算機世界》1998年37期,9月28日,技術專題版,D5, 8頁。

[15]古籍的載體轉化固然十分重要,但數字化古籍事業須綜合運用多種計算機技術,絕非單憑一項OCR技術能夠完成。

[16]見《校讎通義·校讎條理》,《章學誠遺書》,98頁。

[17]好的檢索工具依關鍵詞的內部特征排列正文,而以其外部特征排列索引,例如《中國叢書綜錄》“總目”和“子目”的正文以四部分類法(類別屬于書目關鍵詞的內部特征)來部勒群書,而輔以書名和作者(關鍵詞)首字的四角號碼、筆畫、音序(均屬外部特征)索引。但是這類檢索工具多限于目錄(如《中國叢書綜錄》)、職官年表(如吳廷燮《唐方鎮年表》)、法令匯編(如仁井田升《唐令拾遺》)等,而其他類別的檢索工具多只依關鍵詞的外部特征排檢,不能體現關鍵詞的相關性,讀者不能通過查詢一個關鍵詞從而查得與此相關聯的其它關鍵詞。例如《世說新語箋釋》書后附有引書索引,為讀者提供了極大的方便,但是我們如果要檢索《世說新語》及劉孝標注中所見的家譜,就必須閱覽全部的引書索引才能獲得檢索結果,因為引書索引只有書名首字的筆畫排檢方式,而沒有分類排檢方式,讀者無法即類求書。

[18]由于高性能計算機具備海量存儲設備,而且價格低廉,所以我們不必擔心這種數據庫占用過多空間。

[19]臺灣中央研究院計算中心所制作的某些古籍資料庫沒有瀏覽功能,如“二十五史資料庫”,這不能不說是令人遺憾的缺失。

[20]其具體的技術實現方法見李澤光《用idc/htx實現網絡數據庫Web信息檢索》,載《計算機世界》1999年5期,2月1日,電腦與生活版,E14頁。

[21]見曹存根前引文。

原載《國家圖書館學刊》1999年02期

 
主站蜘蛛池模板: 伊人性伊人情综合网| 伊人久久综合无码成人网| 婷婷成人丁香五月综合激情| 久久99精品综合国产首页| 亚洲综合国产精品| | 久久亚洲综合色一区二区三区| 亚洲综合区小说区激情区 | 亚洲av日韩综合一区久热| 婷婷综合缴情亚洲狠狠尤物| 狠狠做深爱婷婷综合一区| 亚洲国产综合人成综合网站00| 亚洲国产成人久久综合| 狠狠色婷婷七月色综合| 国产成人综合亚洲| 亚洲综合激情六月婷婷在线观看 | 一本久久a久久精品综合夜夜| 久久久久久久综合综合狠狠| 国产综合色在线视频区| 狠狠综合久久av一区二区| 亚洲伊人色一综合网| 亚州欧州一本综合天堂网| 国产性天天综合网| 综合91在线精品| 婷婷久久香蕉五月综合| 国产婷婷综合丁香亚洲欧洲| 亚洲综合视频在线| 天天久久影视色香综合网 | 色综合天天综合网看在线影院| 亚洲成AV人综合在线观看| 91精品一区二区综合在线| 久久综合图区亚洲综合图区 | 亚洲综合日韩久久成人AV| 成人亚洲综合天堂| 亚洲香蕉网久久综合影视| 亚洲色欲久久久综合网| 久久天天躁狠狠躁夜夜躁综合| 99久久综合狠狠综合久久一区| 天天爽天天狠久久久综合麻豆| 亚洲五月综合网色九月色| 国产亚洲Av综合人人澡精品|