研究小组着手这项工作后,得出了一系列重要成果。他们在妥善地解决了全汉字库以后,花了近三年的时间,输入了27册《全唐诗》的全部正文、异文和注文,并经11次校对。目前在大量程序软件的控制下,能在2分钟以内解决全部唐诗的检索问题,达到了准确和高速的目标。比如,他们通过简单的运算,便可准确地判定全唐诗共有53035首,作者3276名,订正了传统的四万多首和两千多人等等说法,为彻底打开中国古典文献研究的数量化大门开辟了全新的途径。他在给当时中国社科院新闻发言人杨润时的信中写道:
“作为一个对《全唐诗》有兴趣的人,我经常感到寻检词句的困难,对于这个成果提供的绝大便利,更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。”
当初的研究小组此时已经在钱先生的倡议推动下,扩大为中国社科院的计算器室。他们并不满足于唐诗索引的完成,为了解决“计算机里的唐诗如何帮助人脑里的唐诗”的问题,他们又用三个月时间研制出了“全唐诗索引生成系统”,包括索引编制、数据统计、印刷底版生成三大部分,成功地解决了古典文献索引的一体化编辑和排版问题,并为使用者提供了全面、准确数字化成果。如以李贺为例,董诰编纂的《全唐诗》中,属名李贺的诗共有183首,其中1次重出的47首,2次重出的1首。所谓重出,就是在同一作者或不同作者名下,有两首以上相同或基本相同的诗。在这个过程中,关键在于原数据的取法和重出参数的设定。他们采取了三个连续汉字作为源数据,以诗句周边性的排列组合,句尾韵字及平仄字的位置等因素确定重出参数,但主要根据是汉字本身这个参数。通过计算机的检索和分析,产生结果足以匡正前人沿袭已久的讹误。
中外学人对于这套当时海内外最庞大的古典文学数据库,给予了高度评价,这个项目也因此获得了1990年国家科技进步奖。计算机可以缩小查找范围,提高比勘速度,对复杂的海量查找也轻松胜任,甚至绝大多数能直接对是和非加以判定。计算机可以帮助人脑,但还不能代替人脑。像意境雷同的查检,尽管有汉字象形、会意、形声的优越性,但计算机的距离尚遥远。我想,作为一个认真使用计算机对中国古典进行研
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>