漢語(yǔ)成語(yǔ)知識(shí)庫(kù)的建構(gòu)理念與新進(jìn)展

王雷 俞士汶 朱學(xué)鋒 羅鳯珠 砂岡和子 姜柄圭

  摘要:在漢語(yǔ)中,成語(yǔ)是非常特殊的一個(gè)組成部分,其歷史悠久、形態(tài)穩(wěn)定、結(jié)構(gòu)固定且多用比喻義。本文以描述漢語(yǔ)成語(yǔ)的特點(diǎn)為起點(diǎn),詳細(xì)辨析了成語(yǔ)、熟語(yǔ)、習(xí)語(yǔ)等多詞表達(dá)的共同點(diǎn)和差別,給出了漢語(yǔ)成語(yǔ)面向中文信息處理的準(zhǔn)確定義。重點(diǎn)介紹了北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所建設(shè)的漢語(yǔ)成語(yǔ)知識(shí)庫(kù)。作為一個(gè)重要的漢語(yǔ)語(yǔ)言資源,成語(yǔ)知識(shí)庫(kù)除了能在機(jī)器翻譯、機(jī)器輔助翻譯、跨語(yǔ)言檢索等自然語(yǔ)言處理任務(wù)中發(fā)揮重要作用外,它還對(duì)漢語(yǔ)語(yǔ)言學(xué)研究、對(duì)外漢語(yǔ)教學(xué)以及語(yǔ)言對(duì)比研究等工作也有重要的指導(dǎo)意義。

  關(guān)鍵詞:漢語(yǔ)成語(yǔ)知識(shí)庫(kù);建構(gòu)理念;新進(jìn)展

Principle and New Development of Constructing Chinese Idiom Knowledge Base

Lei Wang1,2Shiwen Yu1Xuefeng Zhu1Fengju Lo3Kazuko Sunaoka4 Byeongkwu Kang5

Key Laboratory of Computational Linguistics of Ministry of Education1
Department of English of Peking University Beijing 1008712
Department of Chinese Linguistics & Literature of Yuan Ze University Taiwan 320033
School of Political Science and Economics of Waseda University Tokyo 16980504
Sogang University5

Abstract: Idioms are distinctive in Chinese for its long history, fixed constitution, continuity and metaphorical meaning in its context. This paper starts with a description of the characteristics of Chinese idioms and analyzes the similarities and differences of multi-word expressions such idioms, idiomatic expressions and phrases, which results in a clear definition of Chinese idioms for the purpose of Chinese information processing. We focus on a Chinese idiom knowledge base built by the Institute of Computational Linguistics at Peking University. As an important Chinese language resource, our idiom knowledge base will not only play a major role in NLP tasks such as machine translation,computer-aided translation, but also provides valuable assistance to cross-language research, linguistic research, teaching Chinese as a foreign language etc.

Key words:Chineseidiom knowledge base; principle of construction;new development

  1.引言

  成語(yǔ)在語(yǔ)言表達(dá)中有生動(dòng)簡(jiǎn)潔、形象鮮明、喻義深刻的特點(diǎn),本身蘊(yùn)含著豐富的歷史、社會(huì)和文化知識(shí),是一個(gè)民族語(yǔ)言最具有特色的組成部分。漢語(yǔ)歷史悠久,大部分成語(yǔ)是從古代歷史典故、寓言傳說(shuō)、經(jīng)典文獻(xiàn)中相承沿用下來(lái)的,通常有著幾千年的歷史,是珍貴的民族文化遺產(chǎn);此外,漢語(yǔ)成語(yǔ)數(shù)量多,使用頻率高,這也是漢語(yǔ)不同于其他語(yǔ)言的一個(gè)顯著特點(diǎn)。在語(yǔ)言教學(xué)中,成語(yǔ)教學(xué)是不可忽視的重要組成部分,教好、學(xué)好成語(yǔ)可以使學(xué)生掌握有關(guān)成語(yǔ)的社會(huì)、歷史和文化知識(shí),開(kāi)闊眼界,提高表達(dá)、閱讀和寫(xiě)作能力[1]。在漢語(yǔ)中,成語(yǔ)占有非常重要的地位,研究類(lèi)似成語(yǔ)、習(xí)語(yǔ)、諺語(yǔ)等多詞表達(dá)(Multi-word Expression)并建設(shè)這種語(yǔ)言單位的知識(shí)庫(kù)對(duì)于語(yǔ)言教學(xué)[2]、詞典編纂[3]、自然語(yǔ)言處理[4]等領(lǐng)域的研究和發(fā)展會(huì)具有實(shí)質(zhì)性的意義。近年來(lái)隨著中文電化教學(xué)理論日益發(fā)展,相關(guān)實(shí)踐與方法日益得到推廣與普及,大規(guī)模、高質(zhì)量的漢語(yǔ)語(yǔ)言知識(shí)庫(kù)(包括各種形式的語(yǔ)料庫(kù))不斷開(kāi)發(fā)研制出來(lái)并應(yīng)用于實(shí)際語(yǔ)言教學(xué)中,這些因素對(duì)于推動(dòng)漢語(yǔ)文教學(xué)、對(duì)外漢語(yǔ)教學(xué)起了非常大的作用。

  此外,隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)逐漸成為人們學(xué)習(xí)、工作乃至日常生活的一部分。遇到問(wèn)題,一些人首先想到用搜索引擎搜索一下,但是當(dāng)前搜索引擎的能力和表現(xiàn)都還不能盡如人意。在進(jìn)行搜索時(shí),搜索對(duì)象限定為網(wǎng)頁(yè)中用字符串表示的文字,而我們真正要搜索的是其表達(dá)的內(nèi)容,并不是文字符號(hào)串本身。當(dāng)搜索引擎嘗試對(duì)類(lèi)似于成語(yǔ)這樣有固定組成結(jié)構(gòu)的多詞表達(dá)進(jìn)行深入的語(yǔ)法、語(yǔ)義分析時(shí),效果并不理想。因此從機(jī)器理解自然語(yǔ)言的角度,深入研究類(lèi)似詞組、習(xí)語(yǔ)、成語(yǔ)、諺語(yǔ)等這樣的多詞表達(dá)對(duì)于自然語(yǔ)言處理技術(shù)的提升會(huì)具有實(shí)質(zhì)性的意義;而中文信息處理尤其需要大規(guī)模、高質(zhì)量的、具有固定結(jié)構(gòu)的詞組、習(xí)語(yǔ)、成語(yǔ)等語(yǔ)言知識(shí)庫(kù)的支持。

  2.現(xiàn)代漢語(yǔ)中的成語(yǔ)及其特點(diǎn)

  根據(jù)《現(xiàn)代漢語(yǔ)詞典》[5],漢語(yǔ)成語(yǔ)的定義為“人們長(zhǎng)期以來(lái)習(xí)用的、簡(jiǎn)潔精辟的定型詞組或短語(yǔ)。”其中“習(xí)用”一詞表明成語(yǔ)須具有一定的歷史淵源,亦有一個(gè)演變過(guò)程,通常時(shí)代感較強(qiáng)。從結(jié)構(gòu)上看,成語(yǔ)書(shū)面語(yǔ)言用字較多,通常以四字格的形式出現(xiàn),而其中“2+2“的聯(lián)合結(jié)構(gòu)又占大多數(shù)。從語(yǔ)義角度來(lái)看,正是由于成語(yǔ)具有“簡(jiǎn)潔精辟”的特點(diǎn),導(dǎo)致其較普通詞語(yǔ)難懂。有些可根據(jù)字面意義推斷,有些必須知道來(lái)源或典故才能懂得其含義。描述性成語(yǔ)一般情感色彩比普通詞語(yǔ)強(qiáng),感情表達(dá)強(qiáng)烈。從修辭的角度看,很多成語(yǔ)具有隱喻,具有生動(dòng)形象,寓意深刻的特點(diǎn)。從使用情況上看,中國(guó)國(guó)家語(yǔ)言文字工作委員會(huì)自2006年起,每年發(fā)布的《中國(guó)語(yǔ)言生活狀況報(bào)告》,都包含各種媒體使用成語(yǔ)的情況。如在2011年的10億漢字的語(yǔ)料中,成語(yǔ)出現(xiàn)近200萬(wàn)次,覆蓋率為0.32%。

  但是如果我們仔細(xì)觀察上述對(duì)成語(yǔ)的定義,我們發(fā)現(xiàn)其只是一個(gè)描述性的定義,存在模糊性。如何給漢語(yǔ)成語(yǔ)下一個(gè)精確的定義,無(wú)論是從語(yǔ)義、語(yǔ)法還是語(yǔ)用的角度,一直都是一個(gè)難題。在引入多詞表達(dá)概念之前,漢語(yǔ)對(duì)于一些難以明確定義為成語(yǔ)的這類(lèi)固定結(jié)構(gòu)也稱(chēng)為“熟語(yǔ)”或者“習(xí)語(yǔ)”。《現(xiàn)代漢語(yǔ)詞典》對(duì)于“熟語(yǔ)”的定義為:固定的詞組,只能整個(gè)應(yīng)用,不能隨意變動(dòng)其中成分,并且往往不能按照一般的構(gòu)詞法來(lái)分析,如“慢條斯理、無(wú)精打采、不尷不尬、一來(lái)二去、亂七八糟、八九不離十等。”[6]在一部有關(guān)“習(xí)語(yǔ)”的專(zhuān)著中,將其定義為:一種多詞的語(yǔ)言單位,常為習(xí)慣用法,具有相對(duì)固定的句法-—語(yǔ)義結(jié)構(gòu)。語(yǔ)言的使用者慣于將它作為一個(gè)整體來(lái)用,以增強(qiáng)語(yǔ)體效果。總體上,語(yǔ)言學(xué)家們對(duì)于熟語(yǔ)的一些特點(diǎn)達(dá)成了共識(shí)。文獻(xiàn)[7]認(rèn)為,熟語(yǔ)是語(yǔ)言中定型的詞組和句子,使用時(shí)一般不能任意改變其組織,包括成語(yǔ)、諺語(yǔ)、格言、歇后語(yǔ)等。文獻(xiàn)[8]認(rèn)為,詞匯當(dāng)中,除了許多獨(dú)立運(yùn)用的詞以外,還有一些固定詞組為一般人所經(jīng)常使用的,也作為語(yǔ)言的建筑材料和詞匯的組成部分,這些總稱(chēng)熟語(yǔ)。熟語(yǔ)的范圍相當(dāng)廣,包括慣用語(yǔ)、成語(yǔ)、歇后語(yǔ)、諺語(yǔ)、格言等。

  從以上描述中我們看到,“固定性”是這類(lèi)語(yǔ)法結(jié)構(gòu)的共同特點(diǎn),而且熟語(yǔ)應(yīng)該包含成語(yǔ)。不承認(rèn)熟語(yǔ)(或按英語(yǔ)稱(chēng)為“多詞表達(dá)”)的固定性,在自然語(yǔ)言處理任務(wù)中會(huì)出現(xiàn)很多問(wèn)題。例如對(duì)漢語(yǔ)文本中的句子進(jìn)行分詞,一些成語(yǔ)或者熟語(yǔ)如果按照組成成分進(jìn)行切分和標(biāo)注,將會(huì)給理解造成很大的困難。例如漢語(yǔ)成語(yǔ)“雞飛狗跳”,我們用ICTCLAS 進(jìn)行切分并標(biāo)注會(huì)得到以下結(jié)果:

雞/n? 飛/v? 狗/n? 跳/v

  而實(shí)際上這個(gè)成語(yǔ)只是利用兩種動(dòng)物“雞”和“狗”來(lái)進(jìn)行比喻,本身并非和這兩種動(dòng)物相關(guān),把它切分開(kāi)來(lái)會(huì)讓人覺(jué)得這個(gè)成語(yǔ)的語(yǔ)義和這兩種動(dòng)物相關(guān)。再如諺語(yǔ)“只要功夫深,鐵杵磨成針。”同樣切分后的結(jié)果為:

只要/c? 功夫/n? 深/a? ,/w
鐵杵/n? 磨/v? 成/v? 針/n? 。/w

  也容易讓人無(wú)法得到該諺語(yǔ)的真正含義。

  問(wèn)題在于熟語(yǔ)和成語(yǔ)的界限究竟在哪里?我們認(rèn)為,漢語(yǔ)成語(yǔ)的定義應(yīng)該符合國(guó)際通用的對(duì)成語(yǔ)的定義[9]:An idiom is a multi-word expression that has a figurative meaning that is comprehended in regard to a common use of that expression that is separate from the literal meaning or definition of the words of which it is made.如其所言,是否歸入成語(yǔ)關(guān)鍵是該多詞表達(dá)的語(yǔ)義不能從其組成成分——無(wú)論是字還是詞——中推測(cè)出來(lái),亦即無(wú)法從成語(yǔ)的字面知道其比喻義。這樣漢語(yǔ)中“杯弓蛇影”為成語(yǔ),而“興高采烈”則不是。

  3.現(xiàn)代漢語(yǔ)成語(yǔ)知識(shí)庫(kù)的建設(shè)理念

  人學(xué)習(xí)第二語(yǔ)言要掌握大量語(yǔ)法、語(yǔ)義知識(shí),讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言,也要給計(jì)算機(jī)配備語(yǔ)言知識(shí)庫(kù),使之成為計(jì)算機(jī)處理語(yǔ)言的知識(shí)基礎(chǔ)和依據(jù)。而給計(jì)算機(jī)用的語(yǔ)言知識(shí)與給人學(xué)習(xí)的語(yǔ)言知識(shí)是要有區(qū)別的。針對(duì)利用計(jì)算機(jī)對(duì)自然語(yǔ)言進(jìn)行處理,主要要解決三個(gè)問(wèn)題:一、計(jì)算機(jī)需要什么樣的語(yǔ)言知識(shí)?二、怎樣描述這些語(yǔ)言知識(shí),計(jì)算機(jī)才能接受?三、如何建設(shè)實(shí)用型語(yǔ)言知識(shí)庫(kù)以便讓計(jì)算機(jī)能夠方便地處理這些知識(shí)?

20130925_013

圖1 語(yǔ)言知識(shí)庫(kù)是支撐語(yǔ)言信息處理發(fā)展的基礎(chǔ)設(shè)施

  在自然語(yǔ)言處理領(lǐng)域中,語(yǔ)言知識(shí)庫(kù)就好比人類(lèi)大腦中存儲(chǔ)語(yǔ)言知識(shí)的記憶區(qū)域,是支撐語(yǔ)言信息處理發(fā)展的基礎(chǔ)設(shè)施(如圖1所示)。恰當(dāng)?shù)闹R(shí)表示、快速有效的存儲(chǔ)與讀取機(jī)制、靈活高效的算法等都構(gòu)成了計(jì)算機(jī)用語(yǔ)言知識(shí)庫(kù)的必要要素。因此語(yǔ)言知識(shí)庫(kù)是自然語(yǔ)言處理系統(tǒng)中不可或缺的組成部分,是這類(lèi)系統(tǒng)成敗的關(guān)鍵。在用語(yǔ)言知識(shí)庫(kù)搭建的平臺(tái)上可以上演威武雄壯生動(dòng)活潑的應(yīng)用系統(tǒng)的劇目(圖2)。

20130925_014

圖2 應(yīng)用程序需要建立在語(yǔ)言知識(shí)庫(kù)的平臺(tái)上

  從上世紀(jì)八十年代起二十六年來(lái),北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所(以下簡(jiǎn)稱(chēng)“計(jì)算語(yǔ)言學(xué)所”)立足北大文理結(jié)合的基礎(chǔ),發(fā)揮對(duì)母語(yǔ)知識(shí)和文化的認(rèn)知優(yōu)勢(shì),日積月累,終于建成綜合型語(yǔ)言知識(shí)庫(kù)(Comprehensive Language Knowledge Base,以下簡(jiǎn)稱(chēng)“CLKB”)。CLKB的語(yǔ)言知識(shí)覆蓋詞、詞組、句子、篇章各級(jí)語(yǔ)言單位和詞法、句法、語(yǔ)義各個(gè)知識(shí)層面,從漢語(yǔ)向多語(yǔ)言輻射,從通用領(lǐng)域深入到專(zhuān)業(yè)領(lǐng)域[10]。一直以來(lái),綜合型語(yǔ)言知識(shí)庫(kù)沒(méi)有停止發(fā)展。已有的知識(shí)庫(kù)的瑕疵不斷被剔除,質(zhì)量不斷提高。新的知識(shí)庫(kù)也在建造中。應(yīng)用也在不斷推進(jìn) 。

  對(duì)于針對(duì)漢語(yǔ)成語(yǔ)構(gòu)建相應(yīng)的語(yǔ)言知識(shí)庫(kù),俞士汶教授曾指出:“成語(yǔ)在現(xiàn)代漢語(yǔ)中頻繁出現(xiàn),對(duì)成語(yǔ)的理解(包括確切翻譯)是文本內(nèi)容理解的一個(gè)重要組成部分。成語(yǔ)龐大,畢竟有限;成語(yǔ)難懂,畢竟可查。只要建設(shè)好成語(yǔ)知識(shí)庫(kù),絕大部分成語(yǔ)的理解問(wèn)題就會(huì)迎刃而解。”正是認(rèn)識(shí)到了文本中成語(yǔ)理解的重要性,他提出了構(gòu)建成語(yǔ)知識(shí)庫(kù)的設(shè)想,并在國(guó)家重點(diǎn)基礎(chǔ)研究課題(973)“文本內(nèi)容理解的數(shù)據(jù)基礎(chǔ)”(課題編號(hào):2004CB318102)中實(shí)踐了這一主張,建成了一個(gè)漢語(yǔ)成語(yǔ)知識(shí)庫(kù),并基于該成語(yǔ)知識(shí)庫(kù)開(kāi)展了多詞表達(dá)、比較語(yǔ)言學(xué)以及計(jì)算機(jī)輔助翻譯方法的研究。在國(guó)家973課題的支持下,計(jì)算語(yǔ)言所構(gòu)建了漢語(yǔ)成語(yǔ)知識(shí)庫(kù)(Chinese Idiom Knowledge Base,以下簡(jiǎn)稱(chēng)“CIKB”)。

  4.成長(zhǎng)中的成語(yǔ)知識(shí)庫(kù)

  計(jì)算語(yǔ)言學(xué)所構(gòu)建的漢語(yǔ)成語(yǔ)知識(shí)庫(kù),其發(fā)展歷程共分三個(gè)階段。第一階段(1986年—2003年)所搜集標(biāo)注的成語(yǔ)是作為《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》 (以下簡(jiǎn)稱(chēng)“語(yǔ)法信息詞典”)的組成部分。當(dāng)時(shí)《語(yǔ)法信息詞典》收了8萬(wàn)余漢語(yǔ)詞語(yǔ),其中包含的成語(yǔ)和習(xí)語(yǔ)共有9000多條(見(jiàn)圖3)。清華大學(xué)出版社出版了介紹這部電子詞典的專(zhuān)著[11]。

20130925_015

圖3 《語(yǔ)法信息詞典》中所收錄的成語(yǔ)語(yǔ)法屬性標(biāo)注

  發(fā)展的第二階段(2004年—2009年)是在973課題中所提出的“綜合型語(yǔ)言知識(shí)庫(kù)”的規(guī)劃下,單獨(dú)建庫(kù)。收入成語(yǔ)及熟語(yǔ)36000多條。其中除《語(yǔ)法信息詞典》原有的“主語(yǔ)”、“謂語(yǔ)”、“句首”等句法屬性信息外,增設(shè)了11個(gè)新的屬性字段:成語(yǔ)、級(jí)別、變體、近義、反義、直譯、意譯、英語(yǔ)近似、譯者、釋義、詞頻、來(lái)源。至此,成語(yǔ)知識(shí)庫(kù)中共計(jì)有23個(gè)屬性字段。特別是“直譯”、“意譯”、“英語(yǔ)近似”字段(見(jiàn)圖4)既重要,又難填。現(xiàn)已完成1萬(wàn)多條成語(yǔ)完整的屬性值填寫(xiě),其中英語(yǔ)字段自譯的就有2600多條。

20130925_016

圖4 成語(yǔ)知識(shí)庫(kù)中英譯字段標(biāo)注示例

  發(fā)展的第三階段(2010年—至今)緣于計(jì)算語(yǔ)言學(xué)所與臺(tái)灣元智大學(xué)合作的“歷代語(yǔ)言知識(shí)庫(kù)建置”計(jì)劃。自2010年加入“歷代語(yǔ)言知識(shí)庫(kù)建置”計(jì)劃起,成語(yǔ)知識(shí)庫(kù)的發(fā)展有了更開(kāi)闊的視野,更加重視成語(yǔ)知識(shí)庫(kù)在漢語(yǔ)教學(xué)特別是東亞地區(qū)的漢語(yǔ)教學(xué)領(lǐng)域所能發(fā)揮的潛能。其進(jìn)展如下:(1)成語(yǔ)知識(shí)庫(kù)與歷代語(yǔ)言知識(shí)庫(kù)中的另一成果“詩(shī)詞曲典故資料庫(kù)”進(jìn)行連接,相互參照。兩個(gè)知識(shí)庫(kù)中實(shí)現(xiàn)成員的優(yōu)勢(shì)互補(bǔ),提高知識(shí)庫(kù)整體品格。例如條目“傾城傾國(guó)”經(jīng)過(guò)與典故資料庫(kù)進(jìn)行影射可以得到如“傾國(guó)風(fēng)流、一顧傾城、名花傾國(guó)、傾人城、傾城色、傾城國(guó)”等古詩(shī)詞和文學(xué)作品中的典故。成語(yǔ)與典故的對(duì)應(yīng)使兩個(gè)自立的知識(shí)庫(kù)交相輝映,可以讓學(xué)習(xí)者同時(shí)領(lǐng)悟成語(yǔ)與典故的含義,不僅有助于理解使用成語(yǔ)的漢語(yǔ)文本的內(nèi)容,還能增強(qiáng)賞析中國(guó)古典文學(xué)瑰寶的能力。(2)建設(shè)了成語(yǔ)典故分階多語(yǔ)教學(xué)網(wǎng)站。網(wǎng)站的內(nèi)容比較豐富,例如進(jìn)行了成語(yǔ)形態(tài)對(duì)比與教學(xué)關(guān)系的探討 (見(jiàn)圖5)。漢語(yǔ)的“走馬看花”,韓語(yǔ)是“走馬看山”,漢語(yǔ)的“異口同聲”日語(yǔ)是“異口同音”,詞匯組成成分不同。漢語(yǔ)的“堂堂正正”,而日、韓語(yǔ)中的形態(tài)是“正正堂堂”,意義相同而詞序不同;日語(yǔ)同時(shí)用[正々堂々]的寫(xiě)法,讀音則為“せいせいどうどう(seiseidoudou)”;韓語(yǔ)的寫(xiě)法“正正堂堂”,讀音則是“????(jungjung dang dang)”。

20130925_017

圖5 成語(yǔ)知識(shí)庫(kù)中多語(yǔ)形態(tài)比較示例

(3)進(jìn)行了基于成語(yǔ)知識(shí)庫(kù)的漢語(yǔ)成語(yǔ)教學(xué)實(shí)踐活動(dòng)。其中包括王雷著《中國(guó)成語(yǔ)1000(漢英對(duì)照)》[13]以及發(fā)表的相關(guān)漢語(yǔ)成語(yǔ)知識(shí)庫(kù)與漢語(yǔ)教學(xué)的論文[1]。

  5.結(jié)語(yǔ)與未來(lái)研究

  目前,無(wú)論是從人的角度還是從機(jī)器的角度,成語(yǔ)的理解與運(yùn)用還存在一定的困難。例如,成語(yǔ)中包含的非常用字:另辟蹊徑、高屋建瓴、言簡(jiǎn)意賅、錙銖必較、罄竹難書(shū)……;含費(fèi)解的詞:膏火自煎、烏合之眾、獨(dú)具匠心、固若金湯、司空見(jiàn)慣、格物致知……;隱喻的廣泛使用:洛陽(yáng)紙貴、罄竹難書(shū)、一絲不茍、金屋藏嬌等。一些成語(yǔ)與歷史典故關(guān)系密切,在應(yīng)用時(shí)非常依賴(lài)語(yǔ)境,稍加不注意就可能造成應(yīng)用不當(dāng)甚至是錯(cuò)誤。例如:胸有成竹、金屋藏嬌、朝三暮四、杯弓蛇影、班門(mén)弄斧……等等。

  基于成語(yǔ)知識(shí)庫(kù)所開(kāi)展的研究可以分為兩個(gè)角度,從小視野來(lái)看主要是成語(yǔ)的理解與運(yùn)用,尤其是面向中文信息處理的應(yīng)用,從而做到既面向機(jī)器又面向人,以面向人的研究為基礎(chǔ),以機(jī)器自動(dòng)理解為最終目標(biāo),兩者相輔相成、相互促進(jìn)。從大視野來(lái)看,則須緊扣歷代語(yǔ)言知識(shí)庫(kù)的構(gòu)建,對(duì)歷代漢語(yǔ)語(yǔ)言知識(shí)進(jìn)行深層次的分析和研究,探索漢語(yǔ)言演化規(guī)律與社會(huì)環(huán)境變遷的交互影響。

  為了支持成語(yǔ)知識(shí)庫(kù)繼續(xù)發(fā)展,計(jì)算語(yǔ)言學(xué)所也制定了一些新計(jì)劃,其中包括:1)中國(guó)國(guó)家自然科學(xué)基金項(xiàng)目“隱喻識(shí)別與理解的理論與方法研究”(2012年-2015年,王治敏博士主持,俞士汶?yún)⒓樱?)中國(guó)國(guó)家自然科學(xué)基金項(xiàng)目“漢語(yǔ)全文詞義標(biāo)注關(guān)鍵技術(shù)研究”(2013年-2016年,曲維光教授主持,朱學(xué)鋒參加);3)北京大學(xué)計(jì)算語(yǔ)言學(xué)中國(guó)教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題“漢語(yǔ)和英語(yǔ)多詞表達(dá)中的隱喻研究”(2013年起,王雷主持)。

  成語(yǔ)知識(shí)庫(kù)是一項(xiàng)已歷時(shí)二十余年的大型語(yǔ)言工程,建構(gòu)的全過(guò)程都采用人機(jī)互助的方法。自動(dòng)建構(gòu)本質(zhì)上是機(jī)器輔助構(gòu)建,盡可能采用適用的成熟的軟件技術(shù),如數(shù)據(jù)庫(kù)技術(shù),機(jī)器學(xué)習(xí)技術(shù)等等,可以保證工程的規(guī)模和進(jìn)度。同時(shí),成語(yǔ)知識(shí)庫(kù)又是一項(xiàng)知識(shí)密集型的高級(jí)語(yǔ)言工程。單純依賴(lài)自動(dòng)技術(shù)建構(gòu)的語(yǔ)言知識(shí)庫(kù)的質(zhì)量不能滿(mǎn)足應(yīng)用的需要,因此必須投入相當(dāng)多的人力,必須投入高水平的專(zhuān)家的力量。專(zhuān)家的知識(shí)和奉獻(xiàn)才是語(yǔ)言知識(shí)庫(kù)質(zhì)量的保證。

致謝

  本研究工作得到國(guó)家自然科學(xué)基金(項(xiàng)目編號(hào)61170163,61272221, 蔣經(jīng)國(guó)基金會(huì)(2009)以及北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(項(xiàng)目編號(hào)201302)。得到國(guó)家高科技研究與發(fā)展項(xiàng)目(863項(xiàng)目)(項(xiàng)目編號(hào) 2012AA011101)部分支持。

參考文獻(xiàn)

[1] 王雷,俞士汶,朱學(xué)鋒,羅鳳珠,漢語(yǔ)成語(yǔ)知識(shí)庫(kù)與漢語(yǔ)教學(xué)[A],第八屆中文電化教學(xué)國(guó)際研討會(huì)論文集,第83-89頁(yè),2012
[2] Lo, Wing Huen. Best Chinese Idioms (Vol. 3)[M]. Hong Kong: HaiFeng Publishing Co,1997: 20-38.
[3] Fellbaum, Christiane. Idioms and Collocations: Corpus-based Linguistic and Lexicographic Studies (Research in Corpus and Discourse)[M]. London: Continuum International Publishing Group Ltd.2007:157-196.
[4] Lin, Dekang. Automatic Identification of NoncompositionalPhrases[A]. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics[C].1999. Maryland, USA: 317-324.
[5] Fiedler, S.. English Phraseology: A Coursebook[M]. Turbingen: Gunter NarrVerlag(2007).
[6] 社科院詞典編輯室,現(xiàn)代漢語(yǔ)詞典(第三版)[M],北京:商務(wù)印書(shū)館,1998
[7] 辭海編輯委員會(huì),辭海(1979年版)[M],上海:上海辭書(shū)出版社,1979
[8] 胡裕樹(shù). 現(xiàn)代漢語(yǔ)[M] . 上海: 上海教育出版社,1998.
[9] McArthur, Tom. 1992. The Oxford Companion to the English Language[M]. Oxford University Press, Oxford, UK.
[10] 俞士汶,穗志方,朱學(xué)鋒. 綜合型語(yǔ)言知識(shí)庫(kù)及其前景[J]. 中文信息學(xué)報(bào),第二十五卷第六期. 2011年11月:12-20.
[11] 俞士汶,朱學(xué)峰,王惠.《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解(第二版)》[M].北京:清華大學(xué)出版社,2003:51.
[12] 中國(guó)工程院編,《20世紀(jì)我國(guó)重大工程技術(shù)成就》[M],廣州:暨南大學(xué)出版社,2002年,第一版31頁(yè)
[13] 王雷.《中國(guó)成語(yǔ)1000(漢英對(duì)照)》[M].北京大學(xué)出版社, 2011:65-86.

  • 作者單位
  • 北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室
  • 北京大學(xué)外國(guó)語(yǔ)學(xué)院
  • 臺(tái)灣元智大學(xué)
  • 中國(guó)語(yǔ)言文學(xué)系
  • 早稻田大學(xué)政治與經(jīng)濟(jì)學(xué)院、西江大學(xué)
  

Comments are closed.

主站蜘蛛池模板: 91精品一区二区综合在线| 图片区精品综合自拍| 狠狠夜色午夜久久综合热91| 色综合久久中文字幕网| 小说区 图片区色 综合区| 激情综合丁香五月| 人妻一本久道久久综合久久鬼色 | 综合色就爱涩涩涩综合婷婷 | 综合无码一区二区三区| 亚洲av综合av一区| 国产综合成色在线视频| 国产AV综合影院| 精品综合久久久久久蜜月| 激情97综合亚洲色婷婷五| 亚洲小说图区综合在线| 亚洲色婷婷综合久久| 国产精品亚洲综合天堂夜夜| 色综合久久久久无码专区| 青青草原综合久久大伊人导航| 亚洲av伊人久久综合密臀性色| 青青草原综合久久大伊人导航| 天天干天天色综合| 精品国产第一国产综合精品| 狠狠色伊人亚洲综合成人| 热の无码热の有码热の综合| 伊人色综合一区二区三区影院视频| 99久久国产综合精品女同图片| 亚洲色图综合在线| 乱色熟女综合一区二区三区| 丁香五月综合缴情综合| 在线综合亚洲欧洲综合网站| 中文字幕亚洲综合久久综合| 狠狠色丁香久久婷婷综合蜜芽五月| 69国产成人综合久久精品91| 亚洲综合成人网在线观看| 伊人久久综合热线大杳蕉下载| 久久综合久久久久| 亚洲欧洲日韩综合| 小说区图片区综合久久88| 国产成人综合精品| 亚洲精品二区国产综合野狼|