國學三大核心技術
自動標點、自動比對和自動排印,是國學公司在《國學寶典》的基礎上,歷經多年研發成功的三大核心技術,可謂大型古籍數據庫從量變到質變的飛躍,不僅具有很高的科技含量,更具有巨大的應用價值。借助此三大技術,得以免除許多繁瑣的重復勞動,將古籍整理出版的效率和質量提升數倍,這無異于延長了學者的生命。
自動標點
自動為古籍加注標點,這大約是無數古籍整理工作者夢寐以求之事,而自動標點技術讓這個夢想變為現實。自動標點并非無中生有,而是以有補無。該項技術基于對大規模帶標點文本的分析統計,以句型為基礎,輔以語法分析和字詞切分技術,通過模糊查找和分段比對,對無標點的古籍文獻自動加上合適的標點符號,可用于大規模古籍整理等領域。理想狀態下自動標點準確率在90%以上,機器無法完全識別的情形下會自動提示專家進行人工干預。
自動比對
校比異文同樣是古籍整理最基本也是最苦惱的事情,不僅耗費大量的人力,而且無法避免失誤。而運用自動比對技術,能自動進行多種版本古籍的逐字比對,完成后還可在古籍中標示出文字和符號任何差異,如此一來,既節省了寶貴的人力,而且有超人的效率和正確性。
自動排印
自動排印技術依托于國學公司研發的大型古籍全文檢索數據庫《國學寶典》,可以將數據庫中的任意文字轉換為方正排版文件,可直接出片、打樣、印刷。版式設計任意可選,多種格式自動排版 ,疑難僻字一次補齊,目錄索引自動生成。
該技術較好地解決了古籍生僻字造字、簡繁體轉換、橫豎版式等多項技術難點,較好地滿足了出版社在信息時代對古籍整理出版項目的高水準需求,可極大地降低出版成本,提高出版效率。更為個性出版,尤其是難度較高的古籍個性出版提供了廣闊的空間。
運用該技術,排印速度極快,可在一刻鐘排完《紅樓夢》,一小時排完《魯迅全集》,一天排完《二十四史》,一周排完《四庫全書》。
《四庫全書》是中國歷史上規模最大的一部叢書,收錄古籍3503種、79337卷。對《四庫全書》進行標點整理并最終出版,無疑是一項宏偉的工程。上世紀五十年代末,中華書局集結全國上百位文史專家整理《二十四史》,前后歷二十年。《四庫全書》10億字,規模是《二十四史》的25倍,通常需用500位教授,工作 100年,而運用三大核心技術,有望在五年內便可完成。