钱锺书与中国古典数字工程

研究小组着手这项工作后，得出了一系列重要成果。他们在妥善地解决了全汉字库以后，花了近三年的时间，输入了27册《全唐诗》的全部正文、异文和注文，并经11次校对。目前在大量程序软件的控制下，能在2分钟以内解决全部唐诗的检索问题，达到了准确和高速的目标。比如，他们通过简单的运算，便可准确地判定全唐诗共有53035首，作者3276名，订正了传统的四万多首和两千多人等等说法，为彻底打开中国古典文献研究的数量化大门开辟了全新的途径。他在给当时中国社科院新闻发言人杨润时的信中写道：

“作为一个对《全唐诗》有兴趣的人，我经常感到寻检词句的困难，对于这个成果提供的绝大便利，更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。”

当初的研究小组此时已经在钱先生的倡议推动下，扩大为中国社科院的计算器室。他们并不满足于唐诗索引的完成，为了解决“计算机里的唐诗如何帮助人脑里的唐诗”的问题，他们又用三个月时间研制出了“全唐诗索引生成系统”，包括索引编制、数据统计、印刷底版生成三大部分，成功地解决了古典文献索引的一体化编辑和排版问题，并为使用者提供了全面、准确数字化成果。如以李贺为例，董诰编纂的《全唐诗》中，属名李贺的诗共有183首，其中1次重出的47首，2次重出的1首。所谓重出，就是在同一作者或不同作者名下，有两首以上相同或基本相同的诗。在这个过程中，关键在于原数据的取法和重出参数的设定。他们采取了三个连续汉字作为源数据，以诗句周边性的排列组合，句尾韵字及平仄字的位置等因素确定重出参数，但主要根据是汉字本身这个参数。通过计算机的检索和分析，产生结果足以匡正前人沿袭已久的讹误。

中外学人对于这套当时海内外最庞大的古典文学数据库，给予了高度评价，这个项目也因此获得了1990年国家科技进步奖。计算机可以缩小查找范围，提高比勘速度，对复杂的海量查找也轻松胜任，甚至绝大多数能直接对是和非加以判定。计算机可以帮助人脑，但还不能代替人脑。像意境雷同的查检，尽管有汉字象形、会意、形声的优越性，但计算机的距离尚遥远。我想，作为一个认真使用计算机对中国古典进行研

上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>

	\| 设为首页 \| 加入收藏 \| 联系我们 \| 友情链接 \| 版权申明 \|
	Copyright 2006-2010 © www.lsqn.cn www.lsqnw.com All rights reserved 历史千年版权所有