本文意在分享筆者在實際項目和科研過程中積累的一些有關(guān)國內(nèi)古籍?dāng)?shù)字化建設(shè)與學(xué)術(shù)應(yīng)用方面的宏觀思考,討論的范圍不僅限于紙本文獻(xiàn)向數(shù)字化形式轉(zhuǎn)換這一過程,而且包含數(shù)字化古籍及相應(yīng)技術(shù)手段影響學(xué)術(shù)知識生產(chǎn)的諸方面問題。這些思考談不上系統(tǒng),也許很不成熟,但借此機(jī)會提出,祈望得到方家指正。
一、整合古籍?dāng)?shù)字化資源的必要與可能
在這一領(lǐng)域內(nèi),一些問題曾經(jīng)反復(fù)討論,但始終沒有達(dá)成一致的見解或產(chǎn)省生一致的行動,就古籍?dāng)?shù)字化建設(shè)方面如數(shù)據(jù)規(guī)范問題、漢字標(biāo)準(zhǔn)問題、分類問題問題等等,大家在深切感受到不便的同時,又苦于無法尋找到切實的解決方案,這里有一個深層的矛盾即在于:表面看這是一項學(xué)術(shù)基礎(chǔ)建設(shè)工程或信息化工程,而在操作層面,它往往被嵌入到制度環(huán)境或市場環(huán)節(jié)中。
古籍?dāng)?shù)字化建設(shè)同所有信息化建設(shè)工程一樣,需要充足的資金支持。一般情況,僅有建設(shè)熱情的個人是難以負(fù)擔(dān)的,所以充當(dāng)主角的只能是組織性的科研機(jī)構(gòu)或從事商業(yè)運(yùn)營的開發(fā)商。由科研機(jī)構(gòu)組織的古籍?dāng)?shù)字化建設(shè),通常是以項目形式申報,在整個項目流程中,會受到來自所屬組織及機(jī)構(gòu)內(nèi)部的的業(yè)務(wù)基礎(chǔ)、募資能力、人員素質(zhì)、管理效率乃至做事風(fēng)格等多種因素的影響,很多時候,這些因素可以歸結(jié)到行政組織的某些固有特性上,而不得不有所掣肘。因此,有時是在某些具體技術(shù)問題如工作平臺的選取、工程進(jìn)度的安排等上,都是一個多方博弈的結(jié)果。
對于商業(yè)運(yùn)作的公司而言,制度環(huán)境相對簡單、技術(shù)力量也較學(xué)術(shù)單位強(qiáng)大,但他們在項目過程中,每一步都會有成本—收益的考量,這是商業(yè)公司的性質(zhì)所決定的,當(dāng)學(xué)術(shù)目標(biāo)與商業(yè)利益發(fā)生沖突的時候,往往被放在次要位置。而古籍?dāng)?shù)字化的最終目標(biāo)是為知識發(fā)展服務(wù),因而,上述沖突總是很難避免。
不過,這兩只力量畢竟是古籍?dāng)?shù)字化建設(shè)的主力,雖然存在諸多不盡人意的問題,但數(shù)字化建設(shè)還是在發(fā)展,這是大勢所趨。隨著商業(yè)公司同學(xué)術(shù)機(jī)構(gòu)合作的不斷深化與擴(kuò)大,也產(chǎn)生了一些經(jīng)濟(jì)效益和學(xué)術(shù)影響兼?zhèn)涞某晒鐣墓鹃_發(fā)的“四庫全書”、“四部叢刊”,國學(xué)公司開發(fā)的“國學(xué)寶典”;學(xué)術(shù)機(jī)構(gòu)、包括圖書館單位在較好地協(xié)調(diào)各種因素后,也貢獻(xiàn)了許多精品,國家圖書館的敦煌文獻(xiàn)、歷代拓片數(shù)字化項目、北京大學(xué)中文系的全唐詩檢索系統(tǒng)、全宋詩分析系統(tǒng),即是其例。
分散來看,我們在十?dāng)?shù)年間已經(jīng)取得了相當(dāng)?shù)某煽儯偶當(dāng)?shù)字資源從無到有,逐漸發(fā)展,就數(shù)據(jù)量而言,根據(jù)專家統(tǒng)計,我國古籍的數(shù)量超過20萬種,已經(jīng)數(shù)字化的古籍恐怕已近其半,大型類書或叢書如《四庫全書》、《四部叢刊》、《古今圖書集成》、《續(xù)修四庫全書》、《大藏經(jīng)》、《太平御覽》都已數(shù)字化,一些珍本古籍包括《諱書集成》、《北京圖書館珍本年譜叢刊》等也被陸續(xù)數(shù)字化。
但將古籍?dāng)?shù)字化做為一個通盤的工程項目來看,我們會發(fā)現(xiàn)有許多問題。首先,這些數(shù)字化資源格式并不統(tǒng)一,底層格式主要是文本和圖片格式,但最終實現(xiàn)的格式卻因建設(shè)方和生產(chǎn)工具的不同,呈現(xiàn)為txt、word、pdf、djvu、tiff、超星格式等,幾乎涵蓋所有現(xiàn)行的數(shù)字化工具;其次,檢索平臺和檢索方式不統(tǒng)一,這些數(shù)字化資源大多需要納入數(shù)據(jù)庫,以便調(diào)用和檢索,但各家所用數(shù)據(jù)庫很不統(tǒng)一,access、mysql、sqlsever都有,有時使用同樣的數(shù)據(jù)庫平臺,也會因為開發(fā)商的再次技術(shù)加工(以知識產(chǎn)權(quán)為目標(biāo))而形成人為的數(shù)據(jù)格式差異,從而給數(shù)據(jù)兼容及隨后的跨庫檢索應(yīng)用帶來極大不便。另外,由于分散作業(yè),各自為用,我們至今無法完整地了解哪些古籍已經(jīng)被數(shù)字化,更無法知曉其數(shù)字化格式、利用程度,這一方面造成了數(shù)不清的重復(fù)建設(shè),一方面又使這些有用的學(xué)術(shù)資源無法充分發(fā)揮其作用。
應(yīng)當(dāng)認(rèn)識到,我們今天從事的古籍?dāng)?shù)字化建設(shè)是一項惠澤當(dāng)下,福被來者的千秋工程,盡管受到各博弈方的影響,但是這一工程的最終指向仍應(yīng)定位于為知識發(fā)展服務(wù),這一目標(biāo)在建設(shè)知識型社會的今天,并非不可能同商業(yè)利益或制度環(huán)境達(dá)成一致。抱著這樣的信心,筆者試提出以下三條建議,旨在現(xiàn)有條件下整合古籍?dāng)?shù)字化資源,并促進(jìn)未來古籍?dāng)?shù)字化建設(shè)的公共平臺。
1.?dāng)?shù)據(jù)標(biāo)準(zhǔn)有待統(tǒng)一——基于元數(shù)據(jù)
統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)也許是一個談虎色變的話題,但筆者這里提出統(tǒng)一,并不是主張把所有古籍文獻(xiàn)內(nèi)容統(tǒng)一為文本或圖像格式,在現(xiàn)有條件下,把全部古籍電子格式文本化也不現(xiàn)實。筆者所謂的統(tǒng)一,是基于目前圖書館界和國外學(xué)術(shù)資料信息化的普遍經(jīng)驗,將資源對象的語義信息統(tǒng)一為元數(shù)據(jù)格式。
元數(shù)據(jù)是用來描述數(shù)據(jù)的數(shù)據(jù),故稱“元數(shù)據(jù)”。以最為通用的DC元數(shù)據(jù)即“都柏林核心(DublinCore)元數(shù)據(jù)”為例,該元數(shù)據(jù)規(guī)范包含十五個最基本的元素及許多拓展元素,用以描述資源對象的語義信息,這十五個元素是:題名(Title)、創(chuàng)建者(Creator)、日期(Date)、主題(Subject)、出版者(Publisher)、類型(Type)、描述(Description)、其他責(zé)任者(Contributor)、格式(Format)、來源(Source)、權(quán)限(Rights)、標(biāo)識符(Identifier)、語種(Language)、關(guān)聯(lián)(Relation)、覆蓋范圍(Coverage)。[1]
元數(shù)據(jù)可以擴(kuò)展定義,就是說可以根據(jù)每一不同對象來定義一套不同的元數(shù)據(jù),在保證開放性的同時,它又采用了規(guī)范的語法,使信息的描述和分類可以實現(xiàn)格式化,從而為機(jī)器處理創(chuàng)造了可能。
對古籍?dāng)?shù)字資源進(jìn)行元數(shù)據(jù)標(biāo)引,有諸多好處,首先它不必對現(xiàn)有資源進(jìn)行格式改造,只是加以外部屬性描述;其次,這將為全部古籍?dāng)?shù)字化資源的調(diào)查和格式轉(zhuǎn)換或再度開發(fā)創(chuàng)造統(tǒng)一的數(shù)據(jù)環(huán)境(元數(shù)據(jù)元素集中定義了相關(guān)標(biāo)識字段)。隨著學(xué)術(shù)需求和開發(fā)建設(shè)的不斷發(fā)展,可以想象,對現(xiàn)有數(shù)字古籍資源做元數(shù)據(jù)回溯標(biāo)引也將勢在必行(類似對圖書館館藏的回溯標(biāo)引一樣)。
2.資源分布需要普查
五年前,中國社科院歷史所陳爽先生曾在《文史知識》上發(fā)表《網(wǎng)絡(luò)文史資料庫概覽》、《網(wǎng)絡(luò)古籍全文檢索系統(tǒng)簡介》兩篇文章,很受歡迎,各大學(xué)術(shù)網(wǎng)站都紛紛轉(zhuǎn)載。五年中類似這樣介紹古籍電子資源或網(wǎng)絡(luò)資源的文章出現(xiàn)不少,許多有心的學(xué)者和熱心的網(wǎng)友都做出了貢獻(xiàn),但遺憾的是,至今尚沒有一份完整的古籍?dāng)?shù)字化資源普查報告,我們對科研單位、商業(yè)公司或個人總共做了多少工作,古籍?dāng)?shù)字化的覆蓋面、分布情況無法獲得一個全體的了解。
這份工作的必要性和重要性無須贅言,它有如學(xué)術(shù)資料的索引一樣,將對我們更好地利用和建設(shè)古籍?dāng)?shù)字化資源將產(chǎn)生巨大的作用。但是,這項工作也存在相當(dāng)?shù)睦щy,否則也不會持久無人問津。總結(jié)起來,困難主要在于:第一,開發(fā)單位分散、信息交流機(jī)制不健全、存在相互保守心態(tài);第二,數(shù)字化資源流散情況復(fù)雜,許多早期建設(shè)的資源由于格式、利用率等問題,很容易被人遺忘而逐漸流失,而且網(wǎng)絡(luò)資源的變更或自然流失更是一個普遍現(xiàn)象,據(jù)學(xué)者研究表明,因特網(wǎng)上的資源,在6個月,有12.2%的網(wǎng)站和20.5%的網(wǎng)頁不能被訪問到;1年后,分別上升到17.7%和31.8%。每周有0.5%的網(wǎng)頁和網(wǎng)站消失,6個月和1年內(nèi)網(wǎng)站發(fā)生變化的比率分別為97%和超過99%,對于網(wǎng)頁,這組數(shù)據(jù)分別為98.3%和99.1%[2];第三,這項普查工作是一項基礎(chǔ)工作,很難獲得直接的經(jīng)濟(jì)效益或被納入學(xué)術(shù)成果,因而很難吸引相關(guān)機(jī)構(gòu)來從事,而其費(fèi)時費(fèi)力又顯然不是個人能夠完成。
這些問題,無論國內(nèi)外,都普遍存在,但是否無法客服呢?筆者認(rèn)為不然。在技術(shù)支持上,我們完全有足夠的支持,通過網(wǎng)頁跟蹤技術(shù),可以相對克服網(wǎng)絡(luò)資源自然耗散問題,通過簡單的數(shù)據(jù)庫技術(shù)和元數(shù)據(jù)定義,可以實現(xiàn)資源定位整合與持續(xù)更新,關(guān)鍵是組織保障和經(jīng)費(fèi)支持。而在這些方面,筆者以為恰可以發(fā)揮現(xiàn)有體制的某些優(yōu)勢來克服。例如,通過古籍整理委員會或大型科研機(jī)關(guān)或某個行業(yè)、學(xué)術(shù)聯(lián)盟的力量,通盤規(guī)劃,完全可以在較短時間內(nèi)完成這一普查,并由調(diào)查單位維護(hù)更新,其中,建立長效機(jī)制的最好辦法莫過于成立行業(yè)聯(lián)盟。這就引出我的第三個建議。
3.有必要成立業(yè)界聯(lián)盟
成立一個集聚科研單位、圖書館、專業(yè)開發(fā)公司及有相關(guān)經(jīng)驗的團(tuán)體、個人的古籍?dāng)?shù)字化業(yè)界聯(lián)盟,不僅有助于實施諸如古籍?dāng)?shù)字化建設(shè)普查這樣的大型公益項目,同時可以起到引領(lǐng)行業(yè)發(fā)展、避免重復(fù)建設(shè)、統(tǒng)一業(yè)界規(guī)范等多種作用。
眾所周知,古籍?dāng)?shù)字化建設(shè)中,現(xiàn)有字符集不夠用是一個瓶頸,北京大學(xué)中文系李鐸先生就指出,無論是GBK還是方正超大字符集,其中毫無用處的字符太多,屬于“拍腦袋拍出的垃圾字”。[3]為什么會出現(xiàn)這樣的情況?主要在于設(shè)計方不知道實際需求,Gb2312的六千多個漢字可以滿足一般文獻(xiàn)的需要,但對于處理古代典籍到底需要哪些字符,沒有實際的古籍?dāng)?shù)字化經(jīng)驗,很難有清晰的認(rèn)識。業(yè)界聯(lián)盟的建立,可以集中經(jīng)驗,共同制定一個相對穩(wěn)定、合理的字符集標(biāo)準(zhǔn)。
在文獻(xiàn)信息處理過程中,每一步都將會涉及標(biāo)準(zhǔn)問題,如異體字的統(tǒng)一、信息的組織分類、敘詞表(關(guān)鍵詞)的確定等環(huán)節(jié)無不如此。數(shù)字化古籍本質(zhì)上如李鐸先生指出的是“公共信息”產(chǎn)品,則其目的是更多的人能夠使用,此時我們就不能使用“誰做大做強(qiáng)誰就是標(biāo)準(zhǔn)”的簡單市場思維,而應(yīng)遵循共享共贏的公共理念。多年來,成立業(yè)界聯(lián)盟的呼聲始終不斷,但一直未能實現(xiàn),與大家缺乏這種公共理念是有關(guān)系的。
二、提高古籍信息化建設(shè)水平的兩點理論準(zhǔn)備
古籍?dāng)?shù)字化建設(shè)發(fā)展到今天,需要對各方面資源進(jìn)行整合,同時,比較國際文獻(xiàn)信息化的發(fā)展水平,我們還需要提高,而且這種訴求不僅來自于與國外的比較,同時也是信息社會或知識型社會發(fā)展趨勢對我們提出的必然要求。
李鐸先生曾提出,信息技術(shù)介入人文學(xué)術(shù)研究,不再停留在文獻(xiàn)檢索層面,而是進(jìn)入了所謂“分析時代”。[4]這與信息技術(shù)發(fā)展的方向也是一致的,即今天的信息技術(shù)已經(jīng)從簡單的信息處理走向大規(guī)模的信息分析和深度信息挖掘。
人類今天所擁有的、可以利用的信息量早已超過我們個體的生理能力實際可以“運(yùn)算”的信息量,這是信息技術(shù)發(fā)展的重要后果之一,而同時,我們也越來越依賴信息技術(shù)來處理所有這些信息。人永遠(yuǎn)努力避免無知或者不能掌握對象的恐懼,這便使信息增長和信息處理方式不斷相互競逐。
信息處理的目標(biāo)是使信息有序化,盡量降低信噪比,并產(chǎn)生相應(yīng)的知識結(jié)果。早期發(fā)展起來的是以搜索引擎和檢索工具為主要代表的信息定位技術(shù)以及以關(guān)鍵詞標(biāo)引和手工分類為代表的信息分揀技術(shù),近年來,又發(fā)展出各種信息聚合和以“元數(shù)據(jù)”為代表的“多屬性標(biāo)引”信息處理技術(shù)。所有這些追求信息增值的技術(shù)理念又都圍繞著一個核心理念,即知識生長的固有邏輯與計算機(jī)信息處理邏輯的有效結(jié)合。
因此,要提高現(xiàn)有古籍?dāng)?shù)字化建設(shè)水平,使之更好地服務(wù)于現(xiàn)代學(xué)術(shù)需求,我們需要有兩點理論準(zhǔn)備,一是對現(xiàn)有知識譜系及其生長特點的了解,二是對計算機(jī)信息處理邏輯的充分理解。
現(xiàn)代知識體系和學(xué)術(shù)體系肇基于自古希臘時期便得以發(fā)展的以概念、關(guān)系、邏輯等為基本架構(gòu)的一套譜系,在知識分類上以樹型結(jié)構(gòu)為通用構(gòu)型,在深層邏輯上以數(shù)學(xué)關(guān)系為基礎(chǔ),在此基礎(chǔ)上,產(chǎn)生了今天的計算機(jī)信息處理方式,因而二者間有著天然的相通。[5]這套知識邏輯同時也成為我們今天共享全部信息和知識成果并不斷推動知識進(jìn)步的話語基礎(chǔ)。我們要理解和把握今天所謂信息社會或知識型社會的發(fā)展方向,必須承認(rèn)這個話語基礎(chǔ)。
在這個話語基礎(chǔ)上,我們要進(jìn)一步領(lǐng)會這套框架體系的元素構(gòu)成和結(jié)構(gòu),就像學(xué)習(xí)面向?qū)ο蟮某绦蛘Z言必須徹底掌握對象—屬性這一邏輯方式一樣。
目前,許多單位都在開發(fā)所謂“專家知識系統(tǒng)”或“多維信息系統(tǒng)”,以李鐸先生提出的“多屬性標(biāo)記本文或多維度的數(shù)據(jù)倉庫(Databank)”為例,其理念是:在存儲時,人們已經(jīng)根據(jù)可能性做了多維的標(biāo)記處理,這些標(biāo)記并不是針對某一具體方向的工作而做的,但計算機(jī)可以根據(jù)其屬性歸納總結(jié)出簡單而又直接的“指令”來,這“指令”是由計算機(jī)發(fā)出。[6]這一思路明顯是從“元數(shù)據(jù)”的理念中來。
隨之而來的一個問題就是,理論上,一個對象可以有無限多的屬性,哪些屬性是可以充分描述該對象的核心屬性必須得到確定,同時,不同對象的屬性集會不同,這樣,“元數(shù)據(jù)”是否準(zhǔn)確和適用便成為影響上述系統(tǒng)成敗的關(guān)鍵(在技術(shù)上處理元數(shù)據(jù)的彈性可變已不成障礙),而確定對象—屬性的內(nèi)容與關(guān)系(即元數(shù)據(jù)結(jié)構(gòu))則有賴于我們對認(rèn)識對象和其在知識譜系中與其他對象的各種時空聯(lián)系有較全面的把握,并以這樣的認(rèn)識基礎(chǔ)來確定“元數(shù)據(jù)”內(nèi)容,便可以利用計算機(jī)的處理邏輯來組合“元數(shù)據(jù)”各種屬性,分析其屬,實現(xiàn)知識挖掘。筆者不妨借用李鐸、王毅文章中的例子來解釋這種把握:“比如以某一作家的生平家世為焦點,可以迅速排列比較同時代和異時代的多個、甚至多組作家的類似背景資料,從而發(fā)現(xiàn)其中各種關(guān)聯(lián)和變化的脈絡(luò)。又比如從某個重要作家的家世和作品系統(tǒng),可以方便地切入與此相關(guān)的眾多時代事件的信息系統(tǒng)之中;如果需要,還可以進(jìn)一步了解諸如官制、地理、經(jīng)濟(jì)、民俗、宗教、中外文化交流等等所有某一具體事件背后復(fù)雜弘闊的背景,了解它們在一個長時段中各自的沿革脈絡(luò)、相互關(guān)系等等。”[7]
“元數(shù)據(jù)”所代表的數(shù)據(jù)結(jié)構(gòu)化已成為大規(guī)模信息處理的基礎(chǔ),圍繞它而發(fā)展的各種技術(shù)也成為業(yè)界的重要發(fā)展趨勢。最近,出現(xiàn)了一個名為的“freebase”的網(wǎng)站[8],它被譽(yù)為“2007年互聯(lián)網(wǎng)上最激動人心的東西”,其目標(biāo)是整理世界上所有的信息,與現(xiàn)有的wiki百科系統(tǒng)不同的是,它為每一個條目都設(shè)計了一套元數(shù)據(jù),所有的信息內(nèi)容都是結(jié)構(gòu)化的。比如一個人物,就包含出生時間、死亡時間、性別、職業(yè)、國籍、配偶等等多條屬性和相應(yīng)屬值,當(dāng)數(shù)據(jù)量充分豐富后,我們可以很方便的查詢諸如“2000年去世的中國女性作家”,同時提取她們的生平履歷。這樣的信息材料在和元數(shù)據(jù)理念和大規(guī)模信息處理技術(shù)發(fā)展以前,我們很難得到,也就不會把這些信息或知識成果納入研究視域,但有了上述手段,我們就有了完全不同的基礎(chǔ)。
李、王二位學(xué)者就提出:“當(dāng)‘多維度的數(shù)據(jù)庫'系統(tǒng)等等手段有了比較充分的發(fā)展完善、人們可以方便地從非常廣泛多元的視角(比如文化諸多領(lǐng)域的信息資源之間、古今信息之間、中外信息、人文科學(xué)與某些相關(guān)自然科學(xué)領(lǐng)域之間等等參照關(guān)聯(lián)的路徑已經(jīng)充分發(fā)達(dá))進(jìn)入無數(shù)具體的研究界域時,則這個進(jìn)入研究的過程本身,其蘊(yùn)含的信息量、尤其是它蘊(yùn)含信息的開放潛能、擴(kuò)展?jié)撃芎蜕禎撃埽捅囟ㄊ菢O大地超越了進(jìn)入該具體研究界域之前的知識準(zhǔn)備和邏輯預(yù)設(shè),于是研究過程的展開就再也不會僅僅是對已有學(xué)術(shù)假說的論證、對預(yù)設(shè)認(rèn)識路徑的修正和充實而已,而必然是研究過程與研究者之間的一種全新的互動關(guān)系”。筆者認(rèn)為,這是一個激動人心但又確實具有前瞻性的預(yù)言,但要充分發(fā)展這些手段,對人類知識譜系的基本構(gòu)架、邏輯方法的理論認(rèn)識和思維準(zhǔn)備必不可少。
其次,我們需要理解計算機(jī)處理信息的邏輯特點,以尋求它與人類知識能力和思維方式的最大結(jié)合。在量子計算機(jī)和各種生物計算機(jī)得到突破性發(fā)展之前,目前我們通常使用的計算機(jī)其基本工作原理仍是以數(shù)學(xué)二進(jìn)制為基礎(chǔ),以0-1式的電子脈沖為實現(xiàn)方式,這就決定了其基本邏輯仍是線性的,再高級的算法也只是提供了線性邏輯的多種復(fù)雜組合和并行方式。
當(dāng)我們充分利用電腦的我稱之為“多維線性”的邏輯特點,便可以完成人腦不能勝任的許多任務(wù),比如海量信息中某一信息元的搜索定位、相關(guān)信息的匹配與比較,這些功能在古典文獻(xiàn)研究中可以幫助我們完成校對、輯軼、排重等許多基礎(chǔ)文獻(xiàn)工作,也可以幫助我們實現(xiàn)詩歌的韻式分析、詞頻統(tǒng)計等文學(xué)研究的外部計量工作。但是,電腦不具備人腦那些主動的跳躍性思維或非邏輯的情感聯(lián)想功能,比如說起“黃河”便聯(lián)系到“母親”,提起“秋”就聯(lián)系到生命、時間的流逝。所有電腦“具備”的“智能”,本質(zhì)上都來自于對其語義邏輯各組成元素之間關(guān)系的人工定義,只有當(dāng)人們在程序中定義了“秋”與“生命”相聯(lián)系時,電腦才有可能分析一首悲秋主題的詩歌中的生命意蘊(yùn)。一句話,現(xiàn)有的電腦信息處理技術(shù)可以按規(guī)定有邏輯的模擬人的某些思維過程,并且比人更加嚴(yán)格地遵守邏輯法則,但它不能主動的創(chuàng)造未經(jīng)定義的或無法通過現(xiàn)有信息和邏輯推導(dǎo)出來的關(guān)系,也無法超出邏輯范圍來判斷對象或關(guān)系的合理性。
電腦信息處理的邏輯在總的特點上表現(xiàn)為多維線性方式,在具體的程序?qū)崿F(xiàn)上又涉及邏輯嵌套、邏輯遍歷等具體環(huán)節(jié)。例如通過學(xué)習(xí)同樣一套基礎(chǔ)語義模本,來實現(xiàn)對其他文本的語詞切分、自動標(biāo)點,如果定義的學(xué)習(xí)方式不同,出現(xiàn)的結(jié)果就會不一樣,錯誤的時候離真實結(jié)果偏差會很大。因此,理解計算機(jī)的邏輯還需要掌握基本的編程能力。
提高古籍?dāng)?shù)字化建設(shè)的核心因素是人員素質(zhì)的提高,而從事古籍?dāng)?shù)字化的專業(yè)人員首先應(yīng)該具有以上兩個理論和認(rèn)識準(zhǔn)備。
三、在學(xué)術(shù)研究中提高應(yīng)用數(shù)字資源水平的兩點要求
提高建設(shè)水平對建設(shè)者提出高要求,同樣在學(xué)術(shù)研究中拓展和深化對古籍?dāng)?shù)字化資源的利用也對研究者和學(xué)界提出相應(yīng)的要求。結(jié)合信息時代背景和學(xué)術(shù)發(fā)展需要,筆者提出兩條基本要求。
1.信息時代的學(xué)術(shù)研究對個人信息能力的要求
2000年1月美國公布了《高等教育信息素養(yǎng)(informationLiteracy)能力標(biāo)準(zhǔn)》,確定了一個具備信息素養(yǎng)的人應(yīng)達(dá)到的目標(biāo)是:“確定所需信息的范圍;有效地獲取所需的信息;鑒別信息及其來源;將檢索出的信息融入自己的知識基礎(chǔ);有效地利用信息去完成一個具體任務(wù);了解利用信息所涉及的經(jīng)濟(jì)、法律和社會問題,合理合法地檢索、搜集和利用信息。”第五條說的是關(guān)于利用信息的安全與倫理問題,前面四條包含了個人收集、管理和運(yùn)用信息的全部重要環(huán)節(jié)。這是信息時代對個人信息能力提出的基本要求。
許多學(xué)者(尤其是年輕一代學(xué)者)已經(jīng)開始使用電腦信息處理手段來輔助科研,但這些運(yùn)用大多停留在簡單的利用搜索引擎進(jìn)行信息檢索和論文查詢上,而信息時代提供的信息環(huán)境和信息手段實際已使今天的學(xué)者有條件超越前人,這種超越體現(xiàn)在通過信息手段來不斷擴(kuò)大自己的知識基礎(chǔ),而不是僅僅將“檢索出到的信息融入自己的知識基礎(chǔ)”,還體現(xiàn)在學(xué)者不僅可以“完成一個具體任務(wù)”,而且可以完成前人無法完成的任務(wù)。
對于前者,學(xué)者首先需要有“究通天人,吞吐萬象”的學(xué)術(shù)自信和“八面受敵”的學(xué)習(xí)心態(tài),然后需要通過科學(xué)的知識管理來積累各門學(xué)科的知識,并通過這種管理來創(chuàng)造打通學(xué)術(shù)壁壘的可能。
關(guān)于“個人知識管理”概念,美國學(xué)者Frand和Hixon定義為:“它是一種概念框架,指個人組織和集中自己認(rèn)為重要的信息,使其成為我們知識基礎(chǔ)的一部分。它還提供某種將散亂的信息片段轉(zhuǎn)化為可以系統(tǒng)性應(yīng)用的東西的(個人)戰(zhàn)略,并以此擴(kuò)展我們的個人知識。”[9]今天,越來越多的程序開發(fā)人員、公司管理人員、金融分析人員使用個人知識管理軟件來管理他們所接觸的各種信息和知識,他們應(yīng)用知識管理的目標(biāo)是“在最快的時間內(nèi)找到我所需要的信息”。對于人文學(xué)者來說,進(jìn)行知識管理不僅能夠?qū)崿F(xiàn)上述目標(biāo),同時知識管理系統(tǒng)的樹形組織方式和靈活多變的信息整合功能,常常在我們在管理知識的時候,給我們提供更廣泛的知識聯(lián)系和學(xué)術(shù)視域。比如,在組織知識時反復(fù)使用和調(diào)整的分類操作一方面加強(qiáng)我們對學(xué)科特點的把握,一方面又提示我們超越學(xué)科畛域的可能。
個人知識管理理念,在許多資料管理和文檔處理軟件中已有一些體現(xiàn),如Microsoft Office系列產(chǎn)品,筆者在此愿意推薦兩種專門的個人只是管理軟件:Mybase[10]和iNota[11],學(xué)者不妨下載嘗試運(yùn)用,將會獲得不少便益。
2.信息時代學(xué)術(shù)研究需要相應(yīng)的思維方法和學(xué)術(shù)理論
一般來說,工具是配合理論而發(fā)展的,就如統(tǒng)計學(xué)的發(fā)展推動了各種統(tǒng)計軟件的產(chǎn)生,但技術(shù)發(fā)展速度同時也刺激了理論的更新速度,近二三十年來,數(shù)理統(tǒng)計方法和計算機(jī)處理技術(shù)的完美結(jié)合,也促使前著發(fā)生了重大的進(jìn)步。而與此相比,人文研究特別是國內(nèi)的古典學(xué)科研究在擁有越來越強(qiáng)大的電腦信息處理手段的同時,相應(yīng)理論卻十分落后,這也造成了應(yīng)用基本停留在粗淺的信息檢索層次上這一普遍情況。
在一些較深層次的應(yīng)用上,比如意象統(tǒng)計、字頻統(tǒng)計、風(fēng)格分析,學(xué)界尚沒有提出一些有針對性性的算法,或者存在一些對應(yīng)特定系統(tǒng)的算法,這些經(jīng)驗也沒有經(jīng)過交流而上升為一種通用的方法。要解決目前的理論缺陷,一渠道是學(xué)界借鑒在科技、商業(yè)領(lǐng)域的各種應(yīng)用算法,合理移植到人文研究中。例如,過去很多搜索技術(shù)都采用了簡單計算文字、詞組出現(xiàn)頻率的方法,卻忽略了文字使用增加的速率,而康奈爾大學(xué)的科學(xué)家開發(fā)了一個算法,能夠識別一篇文章中某些文字的“突發(fā)”增長,而這些“突發(fā)”增長的文字可以用來快速識別最新的趨勢和熱點問題,因此能夠更有效地篩選重要信息。類似這樣的算法創(chuàng)新往往被最先運(yùn)用到商業(yè)領(lǐng)域,分析客戶需求風(fēng)尚和購買習(xí)慣,而很少被及時引入到人文研究領(lǐng)域。這也提醒我們跨學(xué)科交流過少、關(guān)注視域不廣等不足。
前面已經(jīng)提到,信息時代的信息環(huán)境和各種信息手段為研究者提供了不斷開拓研究界域、打破學(xué)科壁壘的條件,甚至帶來“研究過程與研究者之間的全新互動關(guān)系”,但實現(xiàn)這些變化的潛在要求則是我們思維方式順時的轉(zhuǎn)變與開拓和學(xué)術(shù)方法的更新。這一點,有賴信息技術(shù)界、信息服務(wù)提供方(圖書館等)和學(xué)術(shù)研究界的共同合作與努力。
【注釋】
[1]關(guān)于DC元數(shù)據(jù)的具體運(yùn)用和相關(guān)信息,可以查看其官方網(wǎng)站http://dublincore.org/。
[2]見段宇鋒《網(wǎng)絡(luò)鏈接研究中的制約因素分析》一文。
[3]見李鐸、王毅《數(shù)據(jù)分析時代與古典文學(xué)研究的開放性空間——兼就信息化工程與古典文學(xué)研究之間的互動問題答質(zhì)疑者》一文,載《中國文化研究》2006年第2期。
[4]同上。
[5]這與中國傳統(tǒng)學(xué)術(shù)思維和知識譜系有著明顯分野。盡管在“究天人之際,通古今之變”這些對象和目的上中西方并無差別,但中國傳統(tǒng)知識譜系和思維特點始終沒有擺脫非理性和神秘主義傾向。很難想象通過這樣的非理性思維能夠發(fā)展出一套現(xiàn)實的計算機(jī)系統(tǒng)。
[6]見李鐸、王毅《數(shù)據(jù)分析時代與古典文學(xué)研究的開放性空間——兼就信息化工程與古典文學(xué)研究之間的互動問題答質(zhì)疑者》一文。
[7]同上引。
[8]讀者可以通過http://www.freebase.com訪問該網(wǎng)站。
[9]Pason Frand,Carol Hixon. Personal Knowledge Management:Who,What,Why,When,Where,How?[DB/OL].
http://www.anderson.ucla.edu/faculty/jason.frand/researcher/speeches/educom98pkm/ 1998.10.17。
[10]Mybase是一個可自定義格式及層次關(guān)系的通用資料管理軟件,可用于管理各種各樣的信息,如:各類文檔、文件、資料、名片、事件、日記、項目、筆記、下載文件等等,其數(shù)據(jù)組織能力足夠靈活,允許您自定義更多的適合具體情況的各種用途。官方網(wǎng)站:http://www2.wjjsoft.com/。
[11]iNota是一套個人知識管理編輯工具,可用拖曳或剪貼的方式取得文字或圖形,以樹狀結(jié)構(gòu)來分類及管理資料,包含詳細(xì)的資料注解,可自動轉(zhuǎn)成XML文件,作為網(wǎng)絡(luò)資源之用,并且自動化的方式整理、歸類,重點注記及內(nèi)容加值的方法,建立個人的目錄與個人知識管理系統(tǒng),提高信息處理與知識吸收的效率。
官方網(wǎng)站:http://www.mypcera.com/。
【作者單位】中國社會科學(xué)院文獻(xiàn)信息中心研究部 |