乱色熟女综合一区二区三区,久久综合中文字幕,97久久综合精品久久久综合

對(duì)古籍?dāng)?shù)字化建設(shè)及其學(xué)術(shù)應(yīng)用的若干思考

唐磊

　　本文意在分享筆者在實(shí)際項(xiàng)目和科研過程中積累的一些有關(guān)國(guó)內(nèi)古籍?dāng)?shù)字化建設(shè)與學(xué)術(shù)應(yīng)用方面的宏觀思考，討論的范圍不僅限于紙本文獻(xiàn)向數(shù)字化形式轉(zhuǎn)換這一過程，而且包含數(shù)字化古籍及相應(yīng)技術(shù)手段影響學(xué)術(shù)知識(shí)生產(chǎn)的諸方面問題。這些思考談不上系統(tǒng)，也許很不成熟，但借此機(jī)會(huì)提出，祈望得到方家指正。

一、整合古籍?dāng)?shù)字化資源的必要與可能

　　在這一領(lǐng)域內(nèi)，一些問題曾經(jīng)反復(fù)討論，但始終沒有達(dá)成一致的見解或產(chǎn)省生一致的行動(dòng)，就古籍?dāng)?shù)字化建設(shè)方面如數(shù)據(jù)規(guī)范問題、漢字標(biāo)準(zhǔn)問題、分類問題問題等等，大家在深切感受到不便的同時(shí)，又苦于無法尋找到切實(shí)的解決方案，這里有一個(gè)深層的矛盾即在于：表面看這是一項(xiàng)學(xué)術(shù)基礎(chǔ)建設(shè)工程或信息化工程，而在操作層面，它往往被嵌入到制度環(huán)境或市場(chǎng)環(huán)節(jié)中。

　　古籍?dāng)?shù)字化建設(shè)同所有信息化建設(shè)工程一樣，需要充足的資金支持。一般情況，僅有建設(shè)熱情的個(gè)人是難以負(fù)擔(dān)的，所以充當(dāng)主角的只能是組織性的科研機(jī)構(gòu)或從事商業(yè)運(yùn)營(yíng)的開發(fā)商。由科研機(jī)構(gòu)組織的古籍?dāng)?shù)字化建設(shè)，通常是以項(xiàng)目形式申報(bào)，在整個(gè)項(xiàng)目流程中，會(huì)受到來自所屬組織及機(jī)構(gòu)內(nèi)部的的業(yè)務(wù)基礎(chǔ)、募資能力、人員素質(zhì)、管理效率乃至做事風(fēng)格等多種因素的影響，很多時(shí)候，這些因素可以歸結(jié)到行政組織的某些固有特性上，而不得不有所掣肘。因此，有時(shí)是在某些具體技術(shù)問題如工作平臺(tái)的選取、工程進(jìn)度的安排等上，都是一個(gè)多方博弈的結(jié)果。

　　對(duì)于商業(yè)運(yùn)作的公司而言，制度環(huán)境相對(duì)簡(jiǎn)單、技術(shù)力量也較學(xué)術(shù)單位強(qiáng)大，但他們?cè)陧?xiàng)目過程中，每一步都會(huì)有成本—收益的考量，這是商業(yè)公司的性質(zhì)所決定的，當(dāng)學(xué)術(shù)目標(biāo)與商業(yè)利益發(fā)生沖突的時(shí)候，往往被放在次要位置。而古籍?dāng)?shù)字化的最終目標(biāo)是為知識(shí)發(fā)展服務(wù)，因而，上述沖突總是很難避免。

　　不過，這兩只力量畢竟是古籍?dāng)?shù)字化建設(shè)的主力，雖然存在諸多不盡人意的問題，但數(shù)字化建設(shè)還是在發(fā)展，這是大勢(shì)所趨。隨著商業(yè)公司同學(xué)術(shù)機(jī)構(gòu)合作的不斷深化與擴(kuò)大，也產(chǎn)生了一些經(jīng)濟(jì)效益和學(xué)術(shù)影響兼?zhèn)涞某晒鐣墓鹃_發(fā)的“四庫(kù)全書”、“四部叢刊”，國(guó)學(xué)公司開發(fā)的“國(guó)學(xué)寶典”；學(xué)術(shù)機(jī)構(gòu)、包括圖書館單位在較好地協(xié)調(diào)各種因素后，也貢獻(xiàn)了許多精品，國(guó)家圖書館的敦煌文獻(xiàn)、歷代拓片數(shù)字化項(xiàng)目、北京大學(xué)中文系的全唐詩(shī)檢索系統(tǒng)、全宋詩(shī)分析系統(tǒng)，即是其例。

　　分散來看，我們?cè)谑當(dāng)?shù)年間已經(jīng)取得了相當(dāng)?shù)某煽?jī)，古籍?dāng)?shù)字資源從無到有，逐漸發(fā)展，就數(shù)據(jù)量而言，根據(jù)專家統(tǒng)計(jì)，我國(guó)古籍的數(shù)量超過20萬種，已經(jīng)數(shù)字化的古籍恐怕已近其半，大型類書或叢書如《四庫(kù)全書》、《四部叢刊》、《古今圖書集成》、《續(xù)修四庫(kù)全書》、《大藏經(jīng)》、《太平御覽》都已數(shù)字化，一些珍本古籍包括《諱書集成》、《北京圖書館珍本年譜叢刊》等也被陸續(xù)數(shù)字化。

　　但將古籍?dāng)?shù)字化做為一個(gè)通盤的工程項(xiàng)目來看，我們會(huì)發(fā)現(xiàn)有許多問題。首先，這些數(shù)字化資源格式并不統(tǒng)一，底層格式主要是文本和圖片格式，但最終實(shí)現(xiàn)的格式卻因建設(shè)方和生產(chǎn)工具的不同，呈現(xiàn)為txt、word、pdf、djvu、tiff、超星格式等，幾乎涵蓋所有現(xiàn)行的數(shù)字化工具；其次，檢索平臺(tái)和檢索方式不統(tǒng)一，這些數(shù)字化資源大多需要納入數(shù)據(jù)庫(kù)，以便調(diào)用和檢索，但各家所用數(shù)據(jù)庫(kù)很不統(tǒng)一，access、mysql、sqlsever都有，有時(shí)使用同樣的數(shù)據(jù)庫(kù)平臺(tái)，也會(huì)因?yàn)殚_發(fā)商的再次技術(shù)加工（以知識(shí)產(chǎn)權(quán)為目標(biāo)）而形成人為的數(shù)據(jù)格式差異，從而給數(shù)據(jù)兼容及隨后的跨庫(kù)檢索應(yīng)用帶來極大不便。另外，由于分散作業(yè)，各自為用，我們至今無法完整地了解哪些古籍已經(jīng)被數(shù)字化，更無法知曉其數(shù)字化格式、利用程度，這一方面造成了數(shù)不清的重復(fù)建設(shè)，一方面又使這些有用的學(xué)術(shù)資源無法充分發(fā)揮其作用。

　　應(yīng)當(dāng)認(rèn)識(shí)到，我們今天從事的古籍?dāng)?shù)字化建設(shè)是一項(xiàng)惠澤當(dāng)下，福被來者的千秋工程，盡管受到各博弈方的影響，但是這一工程的最終指向仍應(yīng)定位于為知識(shí)發(fā)展服務(wù)，這一目標(biāo)在建設(shè)知識(shí)型社會(huì)的今天，并非不可能同商業(yè)利益或制度環(huán)境達(dá)成一致。抱著這樣的信心，筆者試提出以下三條建議，旨在現(xiàn)有條件下整合古籍?dāng)?shù)字化資源，并促進(jìn)未來古籍?dāng)?shù)字化建設(shè)的公共平臺(tái)。

　　1．?dāng)?shù)據(jù)標(biāo)準(zhǔn)有待統(tǒng)一——基于元數(shù)據(jù)

　　統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)也許是一個(gè)談虎色變的話題，但筆者這里提出統(tǒng)一，并不是主張把所有古籍文獻(xiàn)內(nèi)容統(tǒng)一為文本或圖像格式，在現(xiàn)有條件下，把全部古籍電子格式文本化也不現(xiàn)實(shí)。筆者所謂的統(tǒng)一，是基于目前圖書館界和國(guó)外學(xué)術(shù)資料信息化的普遍經(jīng)驗(yàn)，將資源對(duì)象的語義信息統(tǒng)一為元數(shù)據(jù)格式。

　　元數(shù)據(jù)是用來描述數(shù)據(jù)的數(shù)據(jù)，故稱“元數(shù)據(jù)”。以最為通用的DC元數(shù)據(jù)即“都柏林核心（DublinCore）元數(shù)據(jù)”為例，該元數(shù)據(jù)規(guī)范包含十五個(gè)最基本的元素及許多拓展元素，用以描述資源對(duì)象的語義信息，這十五個(gè)元素是：題名（Title）、創(chuàng)建者（Creator）、日期（Date）、主題（Subject）、出版者（Publisher）、類型（Type）、描述（Description）、其他責(zé)任者（Contributor）、格式（Format）、來源（Source）、權(quán)限（Rights）、標(biāo)識(shí)符（Identifier）、語種（Language）、關(guān)聯(lián)（Relation）、覆蓋范圍（Coverage）。[1]

　　元數(shù)據(jù)可以擴(kuò)展定義，就是說可以根據(jù)每一不同對(duì)象來定義一套不同的元數(shù)據(jù)，在保證開放性的同時(shí)，它又采用了規(guī)范的語法，使信息的描述和分類可以實(shí)現(xiàn)格式化，從而為機(jī)器處理創(chuàng)造了可能。

　　對(duì)古籍?dāng)?shù)字資源進(jìn)行元數(shù)據(jù)標(biāo)引，有諸多好處，首先它不必對(duì)現(xiàn)有資源進(jìn)行格式改造，只是加以外部屬性描述；其次，這將為全部古籍?dāng)?shù)字化資源的調(diào)查和格式轉(zhuǎn)換或再度開發(fā)創(chuàng)造統(tǒng)一的數(shù)據(jù)環(huán)境（元數(shù)據(jù)元素集中定義了相關(guān)標(biāo)識(shí)字段）。隨著學(xué)術(shù)需求和開發(fā)建設(shè)的不斷發(fā)展，可以想象，對(duì)現(xiàn)有數(shù)字古籍資源做元數(shù)據(jù)回溯標(biāo)引也將勢(shì)在必行（類似對(duì)圖書館館藏的回溯標(biāo)引一樣）。

　　2．資源分布需要普查

　　五年前，中國(guó)社科院歷史所陳爽先生曾在《文史知識(shí)》上發(fā)表《網(wǎng)絡(luò)文史資料庫(kù)概覽》、《網(wǎng)絡(luò)古籍全文檢索系統(tǒng)簡(jiǎn)介》兩篇文章，很受歡迎，各大學(xué)術(shù)網(wǎng)站都紛紛轉(zhuǎn)載。五年中類似這樣介紹古籍電子資源或網(wǎng)絡(luò)資源的文章出現(xiàn)不少，許多有心的學(xué)者和熱心的網(wǎng)友都做出了貢獻(xiàn)，但遺憾的是，至今尚沒有一份完整的古籍?dāng)?shù)字化資源普查報(bào)告，我們對(duì)科研單位、商業(yè)公司或個(gè)人總共做了多少工作，古籍?dāng)?shù)字化的覆蓋面、分布情況無法獲得一個(gè)全體的了解。

　　這份工作的必要性和重要性無須贅言，它有如學(xué)術(shù)資料的索引一樣，將對(duì)我們更好地利用和建設(shè)古籍?dāng)?shù)字化資源將產(chǎn)生巨大的作用。但是，這項(xiàng)工作也存在相當(dāng)?shù)睦щy，否則也不會(huì)持久無人問津。總結(jié)起來，困難主要在于：第一，開發(fā)單位分散、信息交流機(jī)制不健全、存在相互保守心態(tài)；第二，數(shù)字化資源流散情況復(fù)雜，許多早期建設(shè)的資源由于格式、利用率等問題，很容易被人遺忘而逐漸流失，而且網(wǎng)絡(luò)資源的變更或自然流失更是一個(gè)普遍現(xiàn)象，據(jù)學(xué)者研究表明，因特網(wǎng)上的資源，在6個(gè)月，有12.2％的網(wǎng)站和20.5％的網(wǎng)頁(yè)不能被訪問到；1年后，分別上升到17.7％和31.8％。每周有0.5％的網(wǎng)頁(yè)和網(wǎng)站消失，6個(gè)月和1年內(nèi)網(wǎng)站發(fā)生變化的比率分別為97％和超過99%，對(duì)于網(wǎng)頁(yè)，這組數(shù)據(jù)分別為98.3％和99.1％[2]；第三，這項(xiàng)普查工作是一項(xiàng)基礎(chǔ)工作，很難獲得直接的經(jīng)濟(jì)效益或被納入學(xué)術(shù)成果，因而很難吸引相關(guān)機(jī)構(gòu)來從事，而其費(fèi)時(shí)費(fèi)力又顯然不是個(gè)人能夠完成。

　　這些問題，無論國(guó)內(nèi)外，都普遍存在，但是否無法客服呢？筆者認(rèn)為不然。在技術(shù)支持上，我們完全有足夠的支持，通過網(wǎng)頁(yè)跟蹤技術(shù)，可以相對(duì)克服網(wǎng)絡(luò)資源自然耗散問題，通過簡(jiǎn)單的數(shù)據(jù)庫(kù)技術(shù)和元數(shù)據(jù)定義，可以實(shí)現(xiàn)資源定位整合與持續(xù)更新，關(guān)鍵是組織保障和經(jīng)費(fèi)支持。而在這些方面，筆者以為恰可以發(fā)揮現(xiàn)有體制的某些優(yōu)勢(shì)來克服。例如，通過古籍整理委員會(huì)或大型科研機(jī)關(guān)或某個(gè)行業(yè)、學(xué)術(shù)聯(lián)盟的力量，通盤規(guī)劃，完全可以在較短時(shí)間內(nèi)完成這一普查，并由調(diào)查單位維護(hù)更新，其中，建立長(zhǎng)效機(jī)制的最好辦法莫過于成立行業(yè)聯(lián)盟。這就引出我的第三個(gè)建議。

　　3．有必要成立業(yè)界聯(lián)盟

　　成立一個(gè)集聚科研單位、圖書館、專業(yè)開發(fā)公司及有相關(guān)經(jīng)驗(yàn)的團(tuán)體、個(gè)人的古籍?dāng)?shù)字化業(yè)界聯(lián)盟，不僅有助于實(shí)施諸如古籍?dāng)?shù)字化建設(shè)普查這樣的大型公益項(xiàng)目，同時(shí)可以起到引領(lǐng)行業(yè)發(fā)展、避免重復(fù)建設(shè)、統(tǒng)一業(yè)界規(guī)范等多種作用。

　　眾所周知，古籍?dāng)?shù)字化建設(shè)中，現(xiàn)有字符集不夠用是一個(gè)瓶頸，北京大學(xué)中文系李鐸先生就指出，無論是GBK還是方正超大字符集，其中毫無用處的字符太多，屬于“拍腦袋拍出的垃圾字”。[3]為什么會(huì)出現(xiàn)這樣的情況？主要在于設(shè)計(jì)方不知道實(shí)際需求，Gb2312的六千多個(gè)漢字可以滿足一般文獻(xiàn)的需要，但對(duì)于處理古代典籍到底需要哪些字符，沒有實(shí)際的古籍?dāng)?shù)字化經(jīng)驗(yàn)，很難有清晰的認(rèn)識(shí)。業(yè)界聯(lián)盟的建立，可以集中經(jīng)驗(yàn)，共同制定一個(gè)相對(duì)穩(wěn)定、合理的字符集標(biāo)準(zhǔn)。

　　在文獻(xiàn)信息處理過程中，每一步都將會(huì)涉及標(biāo)準(zhǔn)問題，如異體字的統(tǒng)一、信息的組織分類、敘詞表（關(guān)鍵詞）的確定等環(huán)節(jié)無不如此。數(shù)字化古籍本質(zhì)上如李鐸先生指出的是“公共信息”產(chǎn)品，則其目的是更多的人能夠使用，此時(shí)我們就不能使用“誰做大做強(qiáng)誰就是標(biāo)準(zhǔn)”的簡(jiǎn)單市場(chǎng)思維，而應(yīng)遵循共享共贏的公共理念。多年來，成立業(yè)界聯(lián)盟的呼聲始終不斷，但一直未能實(shí)現(xiàn)，與大家缺乏這種公共理念是有關(guān)系的。

二、提高古籍信息化建設(shè)水平的兩點(diǎn)理論準(zhǔn)備

　　古籍?dāng)?shù)字化建設(shè)發(fā)展到今天，需要對(duì)各方面資源進(jìn)行整合，同時(shí)，比較國(guó)際文獻(xiàn)信息化的發(fā)展水平，我們還需要提高，而且這種訴求不僅來自于與國(guó)外的比較，同時(shí)也是信息社會(huì)或知識(shí)型社會(huì)發(fā)展趨勢(shì)對(duì)我們提出的必然要求。

　　李鐸先生曾提出，信息技術(shù)介入人文學(xué)術(shù)研究，不再停留在文獻(xiàn)檢索層面，而是進(jìn)入了所謂“分析時(shí)代”。[4]這與信息技術(shù)發(fā)展的方向也是一致的，即今天的信息技術(shù)已經(jīng)從簡(jiǎn)單的信息處理走向大規(guī)模的信息分析和深度信息挖掘。

　　人類今天所擁有的、可以利用的信息量早已超過我們個(gè)體的生理能力實(shí)際可以“運(yùn)算”的信息量，這是信息技術(shù)發(fā)展的重要后果之一，而同時(shí)，我們也越來越依賴信息技術(shù)來處理所有這些信息。人永遠(yuǎn)努力避免無知或者不能掌握對(duì)象的恐懼，這便使信息增長(zhǎng)和信息處理方式不斷相互競(jìng)逐。

　　信息處理的目標(biāo)是使信息有序化，盡量降低信噪比，并產(chǎn)生相應(yīng)的知識(shí)結(jié)果。早期發(fā)展起來的是以搜索引擎和檢索工具為主要代表的信息定位技術(shù)以及以關(guān)鍵詞標(biāo)引和手工分類為代表的信息分揀技術(shù)，近年來，又發(fā)展出各種信息聚合和以“元數(shù)據(jù)”為代表的“多屬性標(biāo)引”信息處理技術(shù)。所有這些追求信息增值的技術(shù)理念又都圍繞著一個(gè)核心理念，即知識(shí)生長(zhǎng)的固有邏輯與計(jì)算機(jī)信息處理邏輯的有效結(jié)合。

　　因此，要提高現(xiàn)有古籍?dāng)?shù)字化建設(shè)水平，使之更好地服務(wù)于現(xiàn)代學(xué)術(shù)需求，我們需要有兩點(diǎn)理論準(zhǔn)備，一是對(duì)現(xiàn)有知識(shí)譜系及其生長(zhǎng)特點(diǎn)的了解，二是對(duì)計(jì)算機(jī)信息處理邏輯的充分理解。

　　現(xiàn)代知識(shí)體系和學(xué)術(shù)體系肇基于自古希臘時(shí)期便得以發(fā)展的以概念、關(guān)系、邏輯等為基本架構(gòu)的一套譜系，在知識(shí)分類上以樹型結(jié)構(gòu)為通用構(gòu)型，在深層邏輯上以數(shù)學(xué)關(guān)系為基礎(chǔ)，在此基礎(chǔ)上，產(chǎn)生了今天的計(jì)算機(jī)信息處理方式，因而二者間有著天然的相通。[5]這套知識(shí)邏輯同時(shí)也成為我們今天共享全部信息和知識(shí)成果并不斷推動(dòng)知識(shí)進(jìn)步的話語基礎(chǔ)。我們要理解和把握今天所謂信息社會(huì)或知識(shí)型社會(huì)的發(fā)展方向，必須承認(rèn)這個(gè)話語基礎(chǔ)。

　　在這個(gè)話語基礎(chǔ)上，我們要進(jìn)一步領(lǐng)會(huì)這套框架體系的元素構(gòu)成和結(jié)構(gòu)，就像學(xué)習(xí)面向?qū)ο蟮某绦蛘Z言必須徹底掌握對(duì)象—屬性這一邏輯方式一樣。

　　目前，許多單位都在開發(fā)所謂“專家知識(shí)系統(tǒng)”或“多維信息系統(tǒng)”，以李鐸先生提出的“多屬性標(biāo)記本文或多維度的數(shù)據(jù)倉(cāng)庫(kù)（Databank）”為例，其理念是：在存儲(chǔ)時(shí)，人們已經(jīng)根據(jù)可能性做了多維的標(biāo)記處理，這些標(biāo)記并不是針對(duì)某一具體方向的工作而做的，但計(jì)算機(jī)可以根據(jù)其屬性歸納總結(jié)出簡(jiǎn)單而又直接的“指令”來，這“指令”是由計(jì)算機(jī)發(fā)出。[6]這一思路明顯是從“元數(shù)據(jù)”的理念中來。

　　隨之而來的一個(gè)問題就是，理論上，一個(gè)對(duì)象可以有無限多的屬性，哪些屬性是可以充分描述該對(duì)象的核心屬性必須得到確定，同時(shí)，不同對(duì)象的屬性集會(huì)不同，這樣，“元數(shù)據(jù)”是否準(zhǔn)確和適用便成為影響上述系統(tǒng)成敗的關(guān)鍵（在技術(shù)上處理元數(shù)據(jù)的彈性可變已不成障礙），而確定對(duì)象—屬性的內(nèi)容與關(guān)系（即元數(shù)據(jù)結(jié)構(gòu)）則有賴于我們對(duì)認(rèn)識(shí)對(duì)象和其在知識(shí)譜系中與其他對(duì)象的各種時(shí)空聯(lián)系有較全面的把握，并以這樣的認(rèn)識(shí)基礎(chǔ)來確定“元數(shù)據(jù)”內(nèi)容，便可以利用計(jì)算機(jī)的處理邏輯來組合“元數(shù)據(jù)”各種屬性，分析其屬，實(shí)現(xiàn)知識(shí)挖掘。筆者不妨借用李鐸、王毅文章中的例子來解釋這種把握：“比如以某一作家的生平家世為焦點(diǎn)，可以迅速排列比較同時(shí)代和異時(shí)代的多個(gè)、甚至多組作家的類似背景資料，從而發(fā)現(xiàn)其中各種關(guān)聯(lián)和變化的脈絡(luò)。又比如從某個(gè)重要作家的家世和作品系統(tǒng)，可以方便地切入與此相關(guān)的眾多時(shí)代事件的信息系統(tǒng)之中；如果需要，還可以進(jìn)一步了解諸如官制、地理、經(jīng)濟(jì)、民俗、宗教、中外文化交流等等所有某一具體事件背后復(fù)雜弘闊的背景，了解它們?cè)谝粋€(gè)長(zhǎng)時(shí)段中各自的沿革脈絡(luò)、相互關(guān)系等等。”[7]

　　“元數(shù)據(jù)”所代表的數(shù)據(jù)結(jié)構(gòu)化已成為大規(guī)模信息處理的基礎(chǔ)，圍繞它而發(fā)展的各種技術(shù)也成為業(yè)界的重要發(fā)展趨勢(shì)。最近，出現(xiàn)了一個(gè)名為的“freebase”的網(wǎng)站[8]，它被譽(yù)為“2007年互聯(lián)網(wǎng)上最激動(dòng)人心的東西”，其目標(biāo)是整理世界上所有的信息，與現(xiàn)有的wiki百科系統(tǒng)不同的是，它為每一個(gè)條目都設(shè)計(jì)了一套元數(shù)據(jù)，所有的信息內(nèi)容都是結(jié)構(gòu)化的。比如一個(gè)人物，就包含出生時(shí)間、死亡時(shí)間、性別、職業(yè)、國(guó)籍、配偶等等多條屬性和相應(yīng)屬值，當(dāng)數(shù)據(jù)量充分豐富后，我們可以很方便的查詢諸如“2000年去世的中國(guó)女性作家”，同時(shí)提取她們的生平履歷。這樣的信息材料在和元數(shù)據(jù)理念和大規(guī)模信息處理技術(shù)發(fā)展以前，我們很難得到，也就不會(huì)把這些信息或知識(shí)成果納入研究視域，但有了上述手段，我們就有了完全不同的基礎(chǔ)。

　　李、王二位學(xué)者就提出：“當(dāng)‘多維度的數(shù)據(jù)庫(kù)'系統(tǒng)等等手段有了比較充分的發(fā)展完善、人們可以方便地從非常廣泛多元的視角（比如文化諸多領(lǐng)域的信息資源之間、古今信息之間、中外信息、人文科學(xué)與某些相關(guān)自然科學(xué)領(lǐng)域之間等等參照關(guān)聯(lián)的路徑已經(jīng)充分發(fā)達(dá)）進(jìn)入無數(shù)具體的研究界域時(shí)，則這個(gè)進(jìn)入研究的過程本身，其蘊(yùn)含的信息量、尤其是它蘊(yùn)含信息的開放潛能、擴(kuò)展?jié)撃芎蜕禎撃埽捅囟ㄊ菢O大地超越了進(jìn)入該具體研究界域之前的知識(shí)準(zhǔn)備和邏輯預(yù)設(shè)，于是研究過程的展開就再也不會(huì)僅僅是對(duì)已有學(xué)術(shù)假說的論證、對(duì)預(yù)設(shè)認(rèn)識(shí)路徑的修正和充實(shí)而已，而必然是研究過程與研究者之間的一種全新的互動(dòng)關(guān)系”。筆者認(rèn)為，這是一個(gè)激動(dòng)人心但又確實(shí)具有前瞻性的預(yù)言，但要充分發(fā)展這些手段，對(duì)人類知識(shí)譜系的基本構(gòu)架、邏輯方法的理論認(rèn)識(shí)和思維準(zhǔn)備必不可少。

　　其次，我們需要理解計(jì)算機(jī)處理信息的邏輯特點(diǎn)，以尋求它與人類知識(shí)能力和思維方式的最大結(jié)合。在量子計(jì)算機(jī)和各種生物計(jì)算機(jī)得到突破性發(fā)展之前，目前我們通常使用的計(jì)算機(jī)其基本工作原理仍是以數(shù)學(xué)二進(jìn)制為基礎(chǔ)，以0-1式的電子脈沖為實(shí)現(xiàn)方式，這就決定了其基本邏輯仍是線性的，再高級(jí)的算法也只是提供了線性邏輯的多種復(fù)雜組合和并行方式。

　　當(dāng)我們充分利用電腦的我稱之為“多維線性”的邏輯特點(diǎn)，便可以完成人腦不能勝任的許多任務(wù)，比如海量信息中某一信息元的搜索定位、相關(guān)信息的匹配與比較，這些功能在古典文獻(xiàn)研究中可以幫助我們完成校對(duì)、輯軼、排重等許多基礎(chǔ)文獻(xiàn)工作，也可以幫助我們實(shí)現(xiàn)詩(shī)歌的韻式分析、詞頻統(tǒng)計(jì)等文學(xué)研究的外部計(jì)量工作。但是，電腦不具備人腦那些主動(dòng)的跳躍性思維或非邏輯的情感聯(lián)想功能，比如說起“黃河”便聯(lián)系到“母親”，提起“秋”就聯(lián)系到生命、時(shí)間的流逝。所有電腦“具備”的“智能”，本質(zhì)上都來自于對(duì)其語義邏輯各組成元素之間關(guān)系的人工定義，只有當(dāng)人們?cè)诔绦蛑卸x了“秋”與“生命”相聯(lián)系時(shí)，電腦才有可能分析一首悲秋主題的詩(shī)歌中的生命意蘊(yùn)。一句話，現(xiàn)有的電腦信息處理技術(shù)可以按規(guī)定有邏輯的模擬人的某些思維過程，并且比人更加嚴(yán)格地遵守邏輯法則，但它不能主動(dòng)的創(chuàng)造未經(jīng)定義的或無法通過現(xiàn)有信息和邏輯推導(dǎo)出來的關(guān)系，也無法超出邏輯范圍來判斷對(duì)象或關(guān)系的合理性。

　　電腦信息處理的邏輯在總的特點(diǎn)上表現(xiàn)為多維線性方式，在具體的程序?qū)崿F(xiàn)上又涉及邏輯嵌套、邏輯遍歷等具體環(huán)節(jié)。例如通過學(xué)習(xí)同樣一套基礎(chǔ)語義模本，來實(shí)現(xiàn)對(duì)其他文本的語詞切分、自動(dòng)標(biāo)點(diǎn)，如果定義的學(xué)習(xí)方式不同，出現(xiàn)的結(jié)果就會(huì)不一樣，錯(cuò)誤的時(shí)候離真實(shí)結(jié)果偏差會(huì)很大。因此，理解計(jì)算機(jī)的邏輯還需要掌握基本的編程能力。

　　提高古籍?dāng)?shù)字化建設(shè)的核心因素是人員素質(zhì)的提高，而從事古籍?dāng)?shù)字化的專業(yè)人員首先應(yīng)該具有以上兩個(gè)理論和認(rèn)識(shí)準(zhǔn)備。

三、在學(xué)術(shù)研究中提高應(yīng)用數(shù)字資源水平的兩點(diǎn)要求

　　提高建設(shè)水平對(duì)建設(shè)者提出高要求，同樣在學(xué)術(shù)研究中拓展和深化對(duì)古籍?dāng)?shù)字化資源的利用也對(duì)研究者和學(xué)界提出相應(yīng)的要求。結(jié)合信息時(shí)代背景和學(xué)術(shù)發(fā)展需要，筆者提出兩條基本要求。

　　1．信息時(shí)代的學(xué)術(shù)研究對(duì)個(gè)人信息能力的要求

　　2000年1月美國(guó)公布了《高等教育信息素養(yǎng)（informationLiteracy）能力標(biāo)準(zhǔn)》，確定了一個(gè)具備信息素養(yǎng)的人應(yīng)達(dá)到的目標(biāo)是：“確定所需信息的范圍；有效地獲取所需的信息；鑒別信息及其來源；將檢索出的信息融入自己的知識(shí)基礎(chǔ)；有效地利用信息去完成一個(gè)具體任務(wù)；了解利用信息所涉及的經(jīng)濟(jì)、法律和社會(huì)問題，合理合法地檢索、搜集和利用信息。”第五條說的是關(guān)于利用信息的安全與倫理問題，前面四條包含了個(gè)人收集、管理和運(yùn)用信息的全部重要環(huán)節(jié)。這是信息時(shí)代對(duì)個(gè)人信息能力提出的基本要求。

　　許多學(xué)者（尤其是年輕一代學(xué)者）已經(jīng)開始使用電腦信息處理手段來輔助科研，但這些運(yùn)用大多停留在簡(jiǎn)單的利用搜索引擎進(jìn)行信息檢索和論文查詢上，而信息時(shí)代提供的信息環(huán)境和信息手段實(shí)際已使今天的學(xué)者有條件超越前人，這種超越體現(xiàn)在通過信息手段來不斷擴(kuò)大自己的知識(shí)基礎(chǔ)，而不是僅僅將“檢索出到的信息融入自己的知識(shí)基礎(chǔ)”，還體現(xiàn)在學(xué)者不僅可以“完成一個(gè)具體任務(wù)”，而且可以完成前人無法完成的任務(wù)。

　　對(duì)于前者，學(xué)者首先需要有“究通天人，吞吐萬象”的學(xué)術(shù)自信和“八面受敵”的學(xué)習(xí)心態(tài)，然后需要通過科學(xué)的知識(shí)管理來積累各門學(xué)科的知識(shí)，并通過這種管理來創(chuàng)造打通學(xué)術(shù)壁壘的可能。

　　關(guān)于“個(gè)人知識(shí)管理”概念，美國(guó)學(xué)者Frand和Hixon定義為：“它是一種概念框架，指?jìng)€(gè)人組織和集中自己認(rèn)為重要的信息，使其成為我們知識(shí)基礎(chǔ)的一部分。它還提供某種將散亂的信息片段轉(zhuǎn)化為可以系統(tǒng)性應(yīng)用的東西的（個(gè)人）戰(zhàn)略，并以此擴(kuò)展我們的個(gè)人知識(shí)。”[9]今天，越來越多的程序開發(fā)人員、公司管理人員、金融分析人員使用個(gè)人知識(shí)管理軟件來管理他們所接觸的各種信息和知識(shí)，他們應(yīng)用知識(shí)管理的目標(biāo)是“在最快的時(shí)間內(nèi)找到我所需要的信息”。對(duì)于人文學(xué)者來說，進(jìn)行知識(shí)管理不僅能夠?qū)崿F(xiàn)上述目標(biāo)，同時(shí)知識(shí)管理系統(tǒng)的樹形組織方式和靈活多變的信息整合功能，常常在我們?cè)诠芾碇R(shí)的時(shí)候，給我們提供更廣泛的知識(shí)聯(lián)系和學(xué)術(shù)視域。比如，在組織知識(shí)時(shí)反復(fù)使用和調(diào)整的分類操作一方面加強(qiáng)我們對(duì)學(xué)科特點(diǎn)的把握，一方面又提示我們超越學(xué)科畛域的可能。

　　個(gè)人知識(shí)管理理念，在許多資料管理和文檔處理軟件中已有一些體現(xiàn)，如Microsoft Office系列產(chǎn)品，筆者在此愿意推薦兩種專門的個(gè)人只是管理軟件：Mybase[10]和iNota[11]，學(xué)者不妨下載嘗試運(yùn)用，將會(huì)獲得不少便益。

　　2．信息時(shí)代學(xué)術(shù)研究需要相應(yīng)的思維方法和學(xué)術(shù)理論

　　一般來說，工具是配合理論而發(fā)展的，就如統(tǒng)計(jì)學(xué)的發(fā)展推動(dòng)了各種統(tǒng)計(jì)軟件的產(chǎn)生，但技術(shù)發(fā)展速度同時(shí)也刺激了理論的更新速度，近二三十年來，數(shù)理統(tǒng)計(jì)方法和計(jì)算機(jī)處理技術(shù)的完美結(jié)合，也促使前著發(fā)生了重大的進(jìn)步。而與此相比，人文研究特別是國(guó)內(nèi)的古典學(xué)科研究在擁有越來越強(qiáng)大的電腦信息處理手段的同時(shí)，相應(yīng)理論卻十分落后，這也造成了應(yīng)用基本停留在粗淺的信息檢索層次上這一普遍情況。

　　在一些較深層次的應(yīng)用上，比如意象統(tǒng)計(jì)、字頻統(tǒng)計(jì)、風(fēng)格分析，學(xué)界尚沒有提出一些有針對(duì)性性的算法，或者存在一些對(duì)應(yīng)特定系統(tǒng)的算法，這些經(jīng)驗(yàn)也沒有經(jīng)過交流而上升為一種通用的方法。要解決目前的理論缺陷，一渠道是學(xué)界借鑒在科技、商業(yè)領(lǐng)域的各種應(yīng)用算法，合理移植到人文研究中。例如，過去很多搜索技術(shù)都采用了簡(jiǎn)單計(jì)算文字、詞組出現(xiàn)頻率的方法，卻忽略了文字使用增加的速率，而康奈爾大學(xué)的科學(xué)家開發(fā)了一個(gè)算法，能夠識(shí)別一篇文章中某些文字的“突發(fā)”增長(zhǎng)，而這些“突發(fā)”增長(zhǎng)的文字可以用來快速識(shí)別最新的趨勢(shì)和熱點(diǎn)問題，因此能夠更有效地篩選重要信息。類似這樣的算法創(chuàng)新往往被最先運(yùn)用到商業(yè)領(lǐng)域，分析客戶需求風(fēng)尚和購(gòu)買習(xí)慣，而很少被及時(shí)引入到人文研究領(lǐng)域。這也提醒我們跨學(xué)科交流過少、關(guān)注視域不廣等不足。

　　前面已經(jīng)提到，信息時(shí)代的信息環(huán)境和各種信息手段為研究者提供了不斷開拓研究界域、打破學(xué)科壁壘的條件，甚至帶來“研究過程與研究者之間的全新互動(dòng)關(guān)系”，但實(shí)現(xiàn)這些變化的潛在要求則是我們思維方式順時(shí)的轉(zhuǎn)變與開拓和學(xué)術(shù)方法的更新。這一點(diǎn)，有賴信息技術(shù)界、信息服務(wù)提供方（圖書館等）和學(xué)術(shù)研究界的共同合作與努力。

【注釋】

[1]關(guān)于DC元數(shù)據(jù)的具體運(yùn)用和相關(guān)信息，可以查看其官方網(wǎng)站http://dublincore.org/。

[2]見段宇鋒《網(wǎng)絡(luò)鏈接研究中的制約因素分析》一文。

[3]見李鐸、王毅《數(shù)據(jù)分析時(shí)代與古典文學(xué)研究的開放性空間——兼就信息化工程與古典文學(xué)研究之間的互動(dòng)問題答質(zhì)疑者》一文，載《中國(guó)文化研究》2006年第2期。

[4]同上。

[5]這與中國(guó)傳統(tǒng)學(xué)術(shù)思維和知識(shí)譜系有著明顯分野。盡管在“究天人之際，通古今之變”這些對(duì)象和目的上中西方并無差別，但中國(guó)傳統(tǒng)知識(shí)譜系和思維特點(diǎn)始終沒有擺脫非理性和神秘主義傾向。很難想象通過這樣的非理性思維能夠發(fā)展出一套現(xiàn)實(shí)的計(jì)算機(jī)系統(tǒng)。

[6]見李鐸、王毅《數(shù)據(jù)分析時(shí)代與古典文學(xué)研究的開放性空間——兼就信息化工程與古典文學(xué)研究之間的互動(dòng)問題答質(zhì)疑者》一文。

[7]同上引。

[8]讀者可以通過http://www.freebase.com訪問該網(wǎng)站。

[9]Pason Frand，Carol Hixon. Personal Knowledge Management：Who，What，Why，When，Where，How？[DB/OL].

http://www.anderson.ucla.edu/faculty/jason.frand/researcher/speeches/educom98pkm/　1998.10.17。

[10]Mybase是一個(gè)可自定義格式及層次關(guān)系的通用資料管理軟件，可用于管理各種各樣的信息，如：各類文檔、文件、資料、名片、事件、日記、項(xiàng)目、筆記、下載文件等等，其數(shù)據(jù)組織能力足夠靈活，允許您自定義更多的適合具體情況的各種用途。官方網(wǎng)站：http://www2.wjjsoft.com/。

[11]iNota是一套個(gè)人知識(shí)管理編輯工具，可用拖曳或剪貼的方式取得文字或圖形，以樹狀結(jié)構(gòu)來分類及管理資料，包含詳細(xì)的資料注解，可自動(dòng)轉(zhuǎn)成XML文件，作為網(wǎng)絡(luò)資源之用，并且自動(dòng)化的方式整理、歸類，重點(diǎn)注記及內(nèi)容加值的方法，建立個(gè)人的目錄與個(gè)人知識(shí)管理系統(tǒng)，提高信息處理與知識(shí)吸收的效率。

官方網(wǎng)站：http://www.mypcera.com/。

【作者單位】中國(guó)社會(huì)科學(xué)院文獻(xiàn)信息中心研究部