文獻(xiàn)數(shù)字化背景下的學(xué)術(shù)研究——以人文科學(xué)為例
【內(nèi)容提要】上個世紀(jì)產(chǎn)生的IT技術(shù)對人類社會的各個方面產(chǎn)生了巨大影響,學(xué)術(shù)研究概莫能外。即使是像文史哲這樣的人文學(xué)科,由于有越來越多的數(shù)字化文獻(xiàn)的出現(xiàn)和數(shù)據(jù)庫的廣泛應(yīng)用,也呈現(xiàn)出新的特點:傳統(tǒng)學(xué)科的研究領(lǐng)域和研究方式發(fā)生重大變化,新興學(xué)科和交差學(xué)科開始出現(xiàn)。數(shù)字化文獻(xiàn)的廣泛應(yīng)用,對于人文科學(xué)的深入發(fā)展、對現(xiàn)代知識體系的形成具有積極正面的作用和深遠(yuǎn)的影響。這種影響只會在深度和廣度上繼續(xù)發(fā)展而不會逆轉(zhuǎn)。抄襲和拼湊而導(dǎo)致的學(xué)術(shù)垃圾的出現(xiàn)并非文獻(xiàn)數(shù)字化和網(wǎng)絡(luò)本身的弊端。
【關(guān) 鍵 詞】人文科學(xué)、文獻(xiàn)數(shù)字化、現(xiàn)代知識體系
【作者簡介】鄭永曉,中國社科院文學(xué)所研究員。
一、當(dāng)前人文科學(xué)研究與數(shù)字化文獻(xiàn)的應(yīng)用
錢鍾書先生有一句名言:“大抵學(xué)問是荒江野老屋中二三素心人商量培養(yǎng)之事,朝市之顯學(xué)必成俗學(xué)。”錢先生發(fā)表此論的背景是上個世紀(jì)八十年代末學(xué)界部分人士籌辦《錢鍾書研究》,“錢學(xué)”似有方興未艾之勢,而錢先生本人對此堅決反對,故有此言。筆者淺見,考慮到錢先生本人的知識結(jié)構(gòu)和當(dāng)時發(fā)表此論的背景,錢先生此處所言學(xué)問應(yīng)主要是指人文科學(xué),而與自然科學(xué)無涉。這層意思本來顯而易見,無需論證,但由于拙文主要考察人文科學(xué)與計算機科學(xué)的關(guān)系,故不得不先作此畫蛇添足的界定。
錢先生此言雖然簡單,卻透露出人文學(xué)科的幾個重要特點。比如,做學(xué)問要有一個相對安靜單純的環(huán)境,與喧囂浮華相隔離;學(xué)術(shù)極具個性化色彩,主要依賴于個體的思維與創(chuàng)造,二三個素心人切磋培養(yǎng)即可,無需大規(guī)模的集體項目運作;學(xué)者必須是“素心人”,能耐得住寂寞,有甘做冷板凳的功夫。關(guān)于這幾句話,學(xué)界有很多透徹深入的解讀,此處不再贅言。筆者想借此說明的是,盡管人文科學(xué)涵蓋多種學(xué)科,每個學(xué)科也各有其獨具的特點,但是像文史哲這種典型的人文學(xué)科,其基本的功能和目的是產(chǎn)生“思想”,而“思想”的產(chǎn)生當(dāng)然主要是依賴于人的創(chuàng)造性思維而不是其他。雖然自然科學(xué)和社會科學(xué)也并非不產(chǎn)生“思想”,但是相對而言,人文科學(xué)不像自然科學(xué)那樣依賴于科學(xué)實驗,也不像社會科學(xué)那樣借助于統(tǒng)計分析。所以,這其間的區(qū)別還是比較明顯的,這正是錢先生認(rèn)為學(xué)問是“二三素心人商量培養(yǎng)之事”的原因所在。
但是,我們也必須認(rèn)真思考錢先生這段言辭的前提,錢先生所言“二三素心人”能夠“商量培養(yǎng)”出學(xué)問,是因為他那睿智的大腦已經(jīng)儲存了大量的信息。他所以能夠?qū)懗觥墩勊囦洝贰ⅰ豆苠F編》那樣博通古今、融匯中西的巨著,一個顯而易見的前提是他閱讀了大量古今中外的書籍。錢先生閱讀之廣博、記憶力之超強是人所共知的。幾個不識字的白癡或者讀書甚少的人,即使再“素心”,也切磋不出學(xué)問來。
但是,這世上能夠具備錢先生那樣睿智大腦的人畢竟少之又少,作為普通的學(xué)者,我們先天的條件和后天的素養(yǎng)都無法望其項背。于是我們只好借助于一些工具,幫助我們儲存和記憶,這類工具在過去是卡片和筆記,在上個世紀(jì)九十年代以后,則是計算機和網(wǎng)絡(luò)。計算機及相關(guān)IT技術(shù)是二十世紀(jì)最偉大的發(fā)明之一,也是人類迄今為止最好的記憶和儲存工具。正是由于這個特性,使得像文史哲這類傳統(tǒng)的人文學(xué)科也與尖端自然科學(xué)中的IT技術(shù)建立的密切關(guān)系。
令人驚嘆的是,早在上個世紀(jì)八十年代,錢鍾書先生就準(zhǔn)確預(yù)見到計算機科學(xué)必將對人文科學(xué)產(chǎn)生重要影響,因而積極支持在社科院建立計算機室。在他的鼓勵下,欒貴明先生等陸續(xù)開發(fā)出了國內(nèi)最早的《全唐詩》數(shù)據(jù)庫及《論語》數(shù)據(jù)庫、《紅樓夢》數(shù)據(jù)庫等。
上個世紀(jì)九十年代初,由作家、學(xué)者換筆開始,計算機技術(shù)的相關(guān)應(yīng)用開始步入人文學(xué)術(shù)的殿堂。至九十年代中期以后,網(wǎng)絡(luò)和數(shù)據(jù)庫開始進(jìn)入學(xué)者的視野,一些先行者嘗到了使用數(shù)據(jù)庫的甜頭。至本世紀(jì)以來,無論是文獻(xiàn)數(shù)據(jù)庫的開發(fā)建設(shè),還是文史工作者的實際使用都到達(dá)到了一個較高層次。
根據(jù)筆者有限的見聞,如果說在5年以前尚有極少數(shù)學(xué)者對使用與電腦、網(wǎng)絡(luò)、數(shù)據(jù)庫有關(guān)的一切有抵觸情緒,對自己不使用還頗有自負(fù)、自得、不屑一顧的心態(tài),那么現(xiàn)在這樣的學(xué)者已屬十分稀有了。數(shù)據(jù)庫和網(wǎng)絡(luò)的優(yōu)越性其實根本無需論證,比如我們可以遠(yuǎn)程查詢包括日本宮內(nèi)廳書陵部、國會圖書館、東京大學(xué)東洋文化研究所漢籍善本全文影像資料庫等日本六十余個機構(gòu)的部分漢籍藏書影像,可以檢索到哈佛大學(xué)哈佛燕京圖書館特藏資源庫的部分文獻(xiàn),可以閱讀中美百萬冊書數(shù)字圖書館的數(shù)字文獻(xiàn)。例繁不備舉。這對于在更廣泛的范圍內(nèi)占有學(xué)術(shù)資料、開拓學(xué)術(shù)視野、促進(jìn)學(xué)術(shù)的與時俱進(jìn)與良性發(fā)展顯然是非常必要的。
正是意識到了文獻(xiàn)數(shù)字化和數(shù)據(jù)庫的極大優(yōu)越性,也伴隨著學(xué)者隊伍年齡層次的新老更替,近年來絕大多數(shù)學(xué)者都把文獻(xiàn)數(shù)據(jù)庫作為獲取學(xué)術(shù)資源的重要途徑。《國學(xué)寶典》、電子版《文淵閣四庫全書》和《四部叢刊》、《中國基本古籍庫》等已經(jīng)在近年來的學(xué)術(shù)研究中發(fā)揮了相當(dāng)?shù)淖饔谩?/p>
誠然,就古籍?dāng)?shù)字化進(jìn)程和文史領(lǐng)域的數(shù)據(jù)庫建設(shè)而言,盡管已經(jīng)取得了不小的成績,但是由于版權(quán)保護(hù)、國家支持力度以及某些技術(shù)方面的原因,總體上還只能說處于初級階段。而從人文學(xué)科領(lǐng)域?qū)W者的應(yīng)用而言,大多數(shù)學(xué)者也僅僅是把數(shù)據(jù)庫當(dāng)作一個檢索工具。通常情況下,治學(xué)嚴(yán)謹(jǐn)?shù)膶W(xué)者在檢索到自己需要的資料后會進(jìn)而用紙質(zhì)書籍進(jìn)行復(fù)核,而少數(shù)不嚴(yán)謹(jǐn)?shù)膶W(xué)者則會直接引用。這種情況確實對部分學(xué)術(shù)垃圾的制造起了推波助瀾的作用。
但是,我們不能因為極少數(shù)人利用網(wǎng)絡(luò)數(shù)據(jù)庫便于復(fù)制、拼湊的特點,就否定數(shù)據(jù)庫的積極作用。
如果我們把目光僅僅盯在網(wǎng)絡(luò)和數(shù)據(jù)庫易于復(fù)制、便于抄襲的特性,而阻礙、延緩文獻(xiàn)數(shù)字化和網(wǎng)絡(luò)數(shù)據(jù)庫的發(fā)展,則未免有目光短淺、因噎廢食之嫌。不了解網(wǎng)絡(luò)的特點,沒有掌握這種學(xué)術(shù)利器的特性,站在一種天然正確的道德制高點上,對文獻(xiàn)數(shù)字化進(jìn)程和網(wǎng)絡(luò)數(shù)據(jù)庫冷眼旁觀甚而指責(zé),是一種故步自封、不負(fù)責(zé)任的做法,不利于學(xué)術(shù)在新時期取得更好、更快的發(fā)展。
二、數(shù)字化文獻(xiàn)與建立現(xiàn)代知識體系之關(guān)系
根據(jù)現(xiàn)代知識體系形成和管理方面的相關(guān)理論,數(shù)據(jù)經(jīng)過整理成為信息,信息經(jīng)過系統(tǒng)化成為知識,而知識是“智慧”和“思想”的淵藪。這就是著名的DIKW(Data–to–Information–to–Knowledge–to–Wisdom)理論。這個體系最早可以追溯到英國著名詩人托馬斯·斯蒂恩·艾略特在1934年為倫敦教堂所寫的慶典劇《巖石》(Choruses from “The Rock”)。在這篇詩劇中,艾略特寫到:Where is the Life we have lost in living?/Where is the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?大意是說,我們在哪里遺失了生命中的靈魂?我們在哪里遺失了知識中的智慧?我們在哪里遺失了信息中的知識?1982年12月,美國教育家哈藍(lán)·克利夫蘭(Harlan Cleveland)引用艾略特的這些詩句在其出版的《未來主義者》的一章中提出了“信息即資源”(Information as a Resource)的主張。其后,教育家米蘭·瑟蘭尼(Milan Zeleny)、管理思想家羅素·艾可夫(Russell .L. Ackoff)進(jìn)一步對此理論發(fā)揚光大,前者在1987年撰寫了《管理支援系統(tǒng):邁向整合知識管理》(Management Support Systems: Towards Integrated Knowledge Management ),后者在1989年撰寫了《從數(shù)據(jù)到智慧》(“From Data to Wisdom”,Human Systems Management 7)[①]
根據(jù)這種理論,數(shù)據(jù)是數(shù)字、文字、圖像、符號等,是一些事實的集合。在沒有被處理之前,本身不代表任何潛在的意義。而當(dāng)通過某種方式對數(shù)據(jù)進(jìn)行組織和分析時,數(shù)據(jù)的意義才顯示出來,從而演變?yōu)樾畔ⅲ畔⒖梢詫δ承┖唵蔚膯栴}給予解答。信息經(jīng)過系統(tǒng)化處理,成為信息的集合,從而上升為“知識”。知識是對信息的應(yīng)用,是在對信息進(jìn)行了篩選、綜合、分析等等過程之后產(chǎn)生的。知識不是信息的簡單累加,往往還需要加入基于以往的經(jīng)驗所作的判斷。此外,知識基于推理和分析,還可能產(chǎn)生新的知識。因此,知識可以解決較為復(fù)雜的問題。
智慧和思想是人類思維的高級形式。智慧是對知識的有效利用,它所關(guān)注的是事物發(fā)展的未來,是試圖理解過去未曾理解的事物。智慧和思想是人類所獨有,并且不可能借助任何工具而產(chǎn)生。
在這個鏈條中,智慧固然最可寶貴,但是人類的智慧卻是不可憑空產(chǎn)生的,它是由數(shù)據(jù)而信息而智慧這樣一種層級遞進(jìn)的方式才可能出現(xiàn)。
顯然,數(shù)據(jù)處于鏈條的基礎(chǔ)位置。換言之,沒有數(shù)據(jù)的處理,就沒有后來的信息和知識,當(dāng)然也就更不可能有智慧和思想。
如果這個理論成立,我們就需要重新審視古籍?dāng)?shù)字化的作用,重新探討在人文學(xué)科領(lǐng)域加強建設(shè)文獻(xiàn)型數(shù)據(jù)的必要性和緊迫性。
前輩學(xué)者經(jīng)常告誡我們,治學(xué)應(yīng)該盡可能掌握第一手資料。這是非常正確的,永不過時。問題在于如何盡可能多地掌握第一手資料,如何讓更多的第一手資料為我所用并經(jīng)過分析、推導(dǎo),提出自己獨特的學(xué)術(shù)見解。在信息化技術(shù)已經(jīng)相當(dāng)發(fā)達(dá)的今天,通過人工抄寫、記錄卡片的形式不僅顯得毫無必要,而且浪費太多的時間。就其獲取原始資料的深度、廣度和效率而言,與通過數(shù)據(jù)庫的方式相比,根本不在一個層次上,不具有可比性。
我們有理由相信,伴隨數(shù)字化進(jìn)程的加快,在不遠(yuǎn)的將來,清代以前的文獻(xiàn)和部分現(xiàn)當(dāng)代文獻(xiàn)都會完成數(shù)字化,可以通過快捷方便的數(shù)據(jù)庫方式進(jìn)行有效使用。在這樣的治學(xué)環(huán)境下,我們研究一個學(xué)術(shù)命題,都會真正實現(xiàn)竭澤而漁式地獲取到相關(guān)的所有學(xué)術(shù)資料。建立在這樣一種全面掌握學(xué)術(shù)資料前提下的學(xué)術(shù)研究,顯然更有可能得出更接近事實和真理的結(jié)論,從而把學(xué)術(shù)研究在新的環(huán)境下向前推進(jìn)一步。
三、數(shù)字化文獻(xiàn)對人文科學(xué)的影響具有不可逆轉(zhuǎn)性
誠然,人文學(xué)科具有自己的特點。比如,文學(xué)研究就需要長期浸淫于文學(xué)作品中,體味、咀嚼、涵詠的功夫十分重要。曾有學(xué)者擔(dān)心,計算機時代,學(xué)術(shù)資料獲取的便捷減少了學(xué)者深入體味、研讀、咀嚼作品的時間,甚至根本就略過了這樣一個必不可少的過程,而僅僅憑借若干東拼西湊的剪貼資料就攢出一些所謂論文來。原《文學(xué)遺產(chǎn)》主編陶文鵬先生稱其為“電腦體”。
這些擔(dān)心并非沒有道理,學(xué)界也確實存在著部分學(xué)者利用網(wǎng)絡(luò)和數(shù)據(jù)庫剪貼資料的便利拼湊學(xué)術(shù)垃圾的現(xiàn)象。
問題在于,抄襲和制造學(xué)術(shù)垃圾并非計算機時代的專利。這種現(xiàn)象從來就有,只是由于現(xiàn)今學(xué)術(shù)隊伍越來越大,少數(shù)學(xué)者的道德水準(zhǔn)較為低下,學(xué)術(shù)評價體系中對發(fā)表論文數(shù)量的過分追求,導(dǎo)致現(xiàn)在劣質(zhì)論文的數(shù)量也相應(yīng)增加。根治這種頑癥需要多方面的努力,如果把目光過分集中在所謂網(wǎng)絡(luò)和數(shù)據(jù)庫的弊端上,不僅不能解決問題,反而掩蓋了這種弊端產(chǎn)生的真正原因,而難以從根本上杜絕這種現(xiàn)象的蔓延。
筆者以為,作為自然科學(xué)重要成果和工具的計算機技術(shù)也是促進(jìn)人文科學(xué)發(fā)展的利器。人文科學(xué)與自然科學(xué)在某些交匯點上并非水火不容,而是可以相互促進(jìn),共同發(fā)展。在傳統(tǒng)文史研究方面,以當(dāng)代IT技術(shù)為支撐的古籍?dāng)?shù)字化和各種文獻(xiàn)數(shù)據(jù)庫正是實現(xiàn)學(xué)科發(fā)展的重要輔助工具。
在清代以前,普通學(xué)者的治學(xué)往往依賴于個人藏書的多寡,所以很多學(xué)術(shù)造詣深厚的學(xué)者兼有藏書家的身份。
二十世紀(jì)以來,科研、教育機構(gòu)和公共圖書館的藏書在學(xué)術(shù)發(fā)展過程中扮演了重要角色。就人文學(xué)科而言,一個科研機構(gòu)的實力在一定程度上是與其收藏的該領(lǐng)域藏書的數(shù)量成對應(yīng)關(guān)系的。沒有藏書,也就不能占有學(xué)術(shù)資料,自然也就很難出產(chǎn)高質(zhì)量的學(xué)術(shù)成果。
二十一世紀(jì)以來,數(shù)據(jù)庫的作用日益明顯。在社會科學(xué)領(lǐng)域,如經(jīng)濟學(xué)、人口學(xué)、社會學(xué)等,很多學(xué)術(shù)成果是靠統(tǒng)計數(shù)據(jù)才能有發(fā)言權(quán)的,所以,各種權(quán)威數(shù)據(jù)庫的地位早已在紙質(zhì)書籍之上。而在人文科學(xué)領(lǐng)域,盡管這種局面還沒有出現(xiàn),但是我們可以斷言,隨著古籍?dāng)?shù)字花進(jìn)程的加快和質(zhì)量的提高,至少數(shù)據(jù)庫的地位達(dá)到與傳統(tǒng)書籍對等的程度是完全可以想象的。
筆者以為,計算機和數(shù)據(jù)庫的全面使用,并不會弱化人文學(xué)科的特性和優(yōu)勢。甚至可以說,正是由于計算機簡化了很多事務(wù)性的工作,可以節(jié)約出大量時間用于體味、涵詠作品,并進(jìn)行思考。用前文所言現(xiàn)代知識體系理論來說,就是計算機可以幫助我們加快在數(shù)據(jù)處理和信息加工方面的進(jìn)程,盡快到達(dá)知識和智慧階段。使我們有更多的時間去思索,去探究形而上的問題,去提出更多對文化、對思想有真正建樹的理論。
尤為重要的是,古籍?dāng)?shù)字化的進(jìn)程、文獻(xiàn)數(shù)據(jù)庫的廣泛利用、以IT為代表的自然科學(xué)在人文學(xué)術(shù)領(lǐng)域的深度參與是不以我們的意志為轉(zhuǎn)移的。這是一個必然快速向前發(fā)展的過程,而不可能出現(xiàn)倒退或逆轉(zhuǎn)。例如,在史學(xué)中有歷史文獻(xiàn)學(xué)、在文學(xué)中有古典文獻(xiàn)學(xué),文獻(xiàn)學(xué)的發(fā)展受計算機的影響極大,類似古籍標(biāo)點、版本比對等很多工作將會被計算機所取代。傳統(tǒng)文獻(xiàn)學(xué)必將向數(shù)字文獻(xiàn)學(xué)轉(zhuǎn)化。新興學(xué)科和交差學(xué)科將出現(xiàn),并促進(jìn)各相關(guān)學(xué)科融入到現(xiàn)代學(xué)術(shù)體系中。
從科研的角度而言,數(shù)字化有利于加快現(xiàn)代學(xué)術(shù)體系和研究范式的建立;從知識管理的角度而言,數(shù)字化有利于實現(xiàn)從數(shù)據(jù)到信息,再到知識的跨越性發(fā)展。從閱讀和知識傳播的角度而言,現(xiàn)在的年輕人已經(jīng)習(xí)慣了屏幕閱讀。傳統(tǒng)紙質(zhì)書籍盡管還可以與電子讀物并存一個較長時期,但終究會被數(shù)字化讀物所取代也是無可置疑的。那么,在這種趨勢下,像文史哲這樣的傳統(tǒng)人文學(xué)科,順勢而為,加快數(shù)字化進(jìn)程,及早促進(jìn)學(xué)術(shù)體系轉(zhuǎn)型,顯然是學(xué)術(shù)發(fā)展的必由之路。
四、余論
筆者以為,必須從發(fā)展人文科學(xué)、建設(shè)當(dāng)代文化的戰(zhàn)略高度審視古籍?dāng)?shù)字化和相關(guān)文獻(xiàn)數(shù)據(jù)庫的建設(shè)工作。
改革開放以來,盡管我們的經(jīng)濟建設(shè)取得了舉世矚目的成就。但是,社會上過分追求物質(zhì)利益、金錢至上、道德水準(zhǔn)低下的狀況還沒有得到根本的改變,令人十分憂心。筆者以為,造成這種狀況的根本原因是市場經(jīng)濟環(huán)境下,經(jīng)濟利益的驅(qū)動力量過分強大戕害了人文精神的發(fā)展與重建。大、中、小學(xué)文科教育力度不足,科研機構(gòu)中人文學(xué)科相對弱勢,整個社會文化氛圍中對人文精神的關(guān)注與培養(yǎng)嚴(yán)重滯后。這對于我國提高文化軟實力、發(fā)展高水平的文化創(chuàng)意產(chǎn)業(yè)顯然形成了極大的制約。
改變這種狀況的根本點在于從源頭上重視人文精神的重建,而這個源頭就是我們源遠(yuǎn)流長的傳統(tǒng)文化。
一方面,傳統(tǒng)文化對于重建當(dāng)代人文精神具有重要的基礎(chǔ)作用毋庸置疑。另一方面,傳統(tǒng)文化雖然以不同的方式影響著一代又一代的民眾,但在當(dāng)今全球化浪潮高漲、民眾學(xué)習(xí)外語的熱情遠(yuǎn)高于學(xué)習(xí)母語的情勢下,傳統(tǒng)文化也并不會自動發(fā)揮其應(yīng)有作用。
若要使傳統(tǒng)優(yōu)秀文化在當(dāng)代人文精神重建中擔(dān)當(dāng)重要角色,則必須從科研、教育、社會人文環(huán)境培養(yǎng)等各個環(huán)節(jié)入手,以現(xiàn)代化的手段挖掘傳統(tǒng)優(yōu)秀文化的底蘊,并使用當(dāng)代民眾易于接受的方式將這種文化精華滲透進(jìn)先進(jìn)文化的發(fā)展建構(gòu)中。
顯然,以現(xiàn)代化的手段深入挖掘傳統(tǒng)文化的精華在這個鏈條中是基礎(chǔ)中的基礎(chǔ)。而這正是古籍?dāng)?shù)字化的重要性所在。我國歷史悠久,典籍眾多,或說浩如煙海,或言汗牛充棟,即使代有學(xué)人深入鉆研,所涉及的文獻(xiàn)數(shù)量也往往是滄海一粟。如果只是憑借人力對傳統(tǒng)學(xué)術(shù)進(jìn)行探索,不僅不符合現(xiàn)代學(xué)術(shù)潮流,更難以實現(xiàn)讓傳統(tǒng)文化在重建當(dāng)代人文精神的艱巨任務(wù)中起到重要作用。
因此,古籍?dāng)?shù)字化任重而道遠(yuǎn),文獻(xiàn)數(shù)字化的發(fā)展和數(shù)據(jù)庫建設(shè)及其廣泛的利用是大勢所趨。在文獻(xiàn)數(shù)字化背景下的人文科學(xué)研究,應(yīng)該適應(yīng)這一發(fā)展趨勢,推動古籍?dāng)?shù)字化和文獻(xiàn)數(shù)據(jù)庫建設(shè)向更加專業(yè)化的方向發(fā)展。只有這樣,人文科學(xué)才能與時俱進(jìn),也才能在當(dāng)代人文精神重建過程中發(fā)揮應(yīng)用的作用。
注釋: