试论中国古籍数字化与人文学术研究

使信息资源的共享成为可能。几年前网络通信还是少数人的奢侈品，如今信息高速公路已经修到我们每个人的家门口，将世界连接为一个名副其实的地球村。依托这条无远弗届的信息通衢，人类的知识传播和知识创新势必发生新的跃迁。国际互联网提高了电子文献的检索效率，扩大了服务范围，具有便捷的信息传递方式，节省了远程通信费用[8]。其次，新一代高性能计算机的海量存储和秒级运算能力十分惊人，以至普通人已难于预测它明天的发展。海量存储设备已逐渐普及，我们再也不必在空间和时间的矛盾中苦苦挣扎了。电脑CPU的时钟频率一路突飞猛进，1GHz的CPU也指日可待了。复次，新的国际计算机信息处理标准的制定和实施为建构全球统一的信息处理系统奠定了坚实的基础。我们知道，最初的计算机使用的字符集是为人熟知的ASCII码，即基本拉丁字符集（ISO646），仅有96个拉丁字母和符号。随着计算机技术在世界各国的普遍运用，多文种信息处理的要求也应运而生，基本拉丁字符集显然已无法满足这种需求，各国所运用的地区性编码又为全球信息处理一体化设置了障碍。于是在国际标准化组织（ISO）引导下，由国际计算机界、语言文字学界的专家共同制定了通用多八位编码字符集（ISO/IEC10646）。我们现在所使用的中文版Windows95就是实现该标准的一个子集，它采用了中国信息标准化委员会1995年11月制定的汉字内码扩展规范（GBK），收入汉字两万多个[9]，虽然目前还不能完全满足古籍数字化的要求，但毕竟为汉字信息处理的国际化和标准化开辟了道路，为中国准备了一把开启数字化时代大门的钥匙。再次，新的计算机应用技术，如非键盘输入技术[10]，中文数据库技术[11]，多媒体压缩与传送技术、安全保密技术、自然语言理解技术[12]，尤其是数据挖掘技术的出现，为古籍数字化事业提供了有力的支持。数据挖掘技术又称数据库中的知识发现（Knowledge Discovery in Database,简称KDD），是指从大量数据中提取出可信的、新颖的、有效的并易于理解的知识的高级处理过程[13]。它已广泛应用于市场行销、产品制造、通信网络管理、金融投资、自然科学研究等许多领域[14]。我们相信，数据挖掘技术运用于人文研究领域，必将创造出更卓越的业绩。非键盘输入技术使文献载体转换方式发生了一场革命，例如自动识别输入技术（ODR）使海量信息输入的工作量大大降低，清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部《文渊阁本四库全书》输入计算机内，为同类工作积累了宝贵的技术财富[15]。最后，面向对象的编程工具的出现使人性化应用界面的编制变得轻而易举。
　　如上所述，计算机的特长正在于海量数据的存储、运算（包括排序、筛选、统计和分类）和传输，更可深入文献内部，实现知识的发现，这与人文研究工作的一般过程，即关键词的查询、排序、筛选、分类、统计及其相关性的分析十分相似。既然如此，那么我们就发现了计算机科技运用于人文学术研究领域的基本契合点，我们只须以某种方式沟通两者的语言，就可以充分地发挥计算机的优势，大幅度地提高人文学术研究的效率，为学术积累和学术评论提供更为便利的条件和优化的环境，同时，也就找到了比较完善的古籍数字化方案。
　　目前对于数据库厂商来说是一个千载难逢的良机，无论是近期的国家古籍整理与规划小组的古籍光盘工程、北京图书馆的数字化图书馆工程，还是未来的国家知识基础设施工程，肯定会带来计算机网络工程、系统集成、数据通信、软件开发以及服务方面的巨额需求，谁先期投入这一事业，制定出一系列行业标准，谁就占据了相关产业的制高点，分得最大的市场份额，必将成为全国以至全球的信息产业界业巨子。

三、古籍数字化解决方案之我见

　　数字化古籍究竟是什么样的呢？它需要具备怎样的功能呢？其数据须经如何处理，使用何种技术才能保证它具备我们需要的功能呢？这些都是摆在我们面前的重要问题。
　　首先，好的版本和必要的校勘是古籍数字化的重要前提，没有这一前提，一切功能将无从谈起。我们所谈的古籍数字化事业，其目的不是为大众提供普及读本，而是为学术文化的繁荣奠定基础，这应是参与古籍数字化事业的专家的共识。其次，即笔者曾经一再强调的，数字化古籍的功能不仅在于一般的信息查询，更重要的是古籍文献中的知识发现。最后，它应符合各种国际通用标准，具有开放性，可以在网络上传输，实现信息资源共享。中国古籍数字化的过程，基本上可以视为古籍全文数据库的生成过程。一篇古籍文献输入计算机，就形成了无标引的全文数据库，即半结构化的数据库。目前以中国古籍为内容的电子读物多为此类产品，但这远不能发挥计算机的技术优势，也难以达到研究者的要求，其最大的缺陷就在于它不能象结构化数据库一样经由排序、筛选、分类和统计之类的管理过程产生再生资源，更谈不上知识发现。因此，对古籍中的数据进行充分的分析和处理，制成结构化数据库，与半结构化数据库相结合，才是较为完美的方案。
　　如所周知，传统的纸本工具书，包括索引、类编、目录、年表、历史地图等，尽管已经提供了相当多的便利，但是仍然不能摆脱纸本检索工具的种种缺陷，如门类不齐全，排检方式单一，缺少综合条件和渐进式检索方式，无法产生再生资源，只能部分地完成信息查询功能，不能做到海量数据中的知识发现，携带不便、复制困难又在其次。笔者所设想的数字化古籍解决方案正是为了解决纸本媒介存在的上述问题，确保信息查询的查准率和查询率，并实现海量信息中的知识发现。其重要步骤包括古籍文献的载体转换、置标，关键词的规范控制、属性描述及多途径排检。
　　载体转换是指从纸本文献到电子文献的转换过程，要求快速而又准确，是保证实现进一步文献处理目标的基础。传统的中文键盘输入技术需要新的突破，走出万“码”奔腾或万“码”齐喑的怪圈，才能适应海量信息的、快速准确的载体转换的要求。非键盘输入技术的逐渐成熟显然已向键盘输入技术提出了挑战，清华紫光开发的一种自动识别软件具有非特定人手写识别功能，识别率达到90%以上，如果再加上逻辑或语法判断，则可进一步提高识别率。
　　置标或标引是指通过对文献的分析，选用确切的检索标志以反映文献内容的过程。置标，由于古籍文献中含有非常丰富而宝贵的学术信息，因此必须通过置标这一过程，充分地发掘其中的内涵，以便研究者利用。置标的目的是提取关键词，做数据的预处理，故应足够充分，不放过任何有学术信息的关键词，力求做到从任何角度都能检索到读者需要的信息。清代大学者章学诚曾提出，将古籍中人名、地号、官阶、书目等一切有名可治、有数可稽者都制成韵编（即索引），以收事半功倍之效[16]。一般来说，各类文献中的人名、地名、官名、书名、年代、典故、制度、族属、语词、范畴和其它专名等关键词都须制成索引，另外如文献的主题、体裁、结构、类别、标题、韵脚等特征也要当作关键词来提取。目前，计算机尚无法正确标引古代汉语文献，所以将已有的纸本检索工具转换为数据库，并开发出标引古籍的智能化软件，是古籍数字化的当务之急。当然，鉴于古代汉语的复杂性及文献特征的多样性，依托熟悉古籍的专家仍然是必不可少的。
　　规范控制是为了保证文献标目的一致性，以便有效地实现对标目进行统一管理的手段，规范标目记录以下内容：规范标目，规范标目与相关标目之间的参照关系，选取标目及确定其参照关系的依据。规范控制在纸本检索工具中曾被广泛运用，并取得了很大成功。但是我们必须注意到，以往的检索工具多为专名类型索引，在非专名类型索引的规范控制方面，学术界的成果和经验还不多，既有的主题词表不仅不能涵盖古籍中复杂的语言现象，更难于跟上人文学术的发展进程，我们有必要重新建立规范古籍语词及专名的标准。
　　排检是指检索工具的排序方式和检索途径，它限定着读者的检索策略，直接影响检索效果。一般的纸本检索工具多使用以关键词外部特征为序的排检方式，不能满足读者的信息查询及知识发现的要求。纸本检索工具包含着这样的预设，即认为读者事先已确知所须检索的关键词，但实际上往往并非如此，抑或即使确知，依然需要按其内部特征追寻关键词之间的相关性。不难发现，依关键词外部特征排检的检索工具提供给读者的关键词之间的关联信息较少[17]，而依关键词内部特征排检的检索工具则可提供更多类型的关联信息，便于读者发现新知识。但是限于纸本媒体的特征，多功能检索工具的编纂难度很大，而数字化古籍正适于实现多途径排检功能，这就要用到关键词的属性描述方法。
　　描述关键词的各种属性是为了计算机能依照属性对关键词进行分类、排序、筛选、统计之类的管理，产生再生资源，以利知识发现。所谓关键词的属性描述，其实质就是将关键词的属性特征作认真严格的分析，制成数据库，再将目前为止学术界所了解的有关它的全部知识都填入数据库之中。研究越深入，所能反映的关键词的内涵及其关联就越丰富，检索效果越理想，发现的知识越新颖而可信，所以我们必须毫无遗漏地将已经取得的研究成果纳入其中。于是，这一数据库的设计就变得十分重要。不同类型的关键词具有不同的属性，如人名的属性显然与书名不同。同一类型关键词因其主题不同又有所区别，如帝王有即位年代的属性，士大夫以下则没有。同时，任何关键词的属性还因其规定性特征有所不同，如官僚所任之官有时代之别，又有品阶和类型（如散官、勋官、职事官、加官、赠官等）之别。为了处理如上十分复杂的情况，我们可以利用中国机读目录格式（China MARC）的思路来设计这种可实现知识发现功能的关键词数据库。机读目录格式是一种多层次的开放式数据库，它原本用来详尽地描述书目型关键词的各种属性，并进行基本管理。由于它允许用户自由定义各字段和子字段的内容，因此可以改造为一种描述和管理各类关键词的数据库。理论上，它应是一种通用的综合的信息管理数据库，能管理各种不同类型的数据，包括文本、日期、逻辑、图像、视频、声音等[18]，符合（或者创造）国际标准，具有多个检索出口，可通过多种检索途径实现信息查询和知识发现。它分为记录、字段和子字段三个层次。首先，以对一个关键词的全面描述为一条记录。其次，以记录之下的通用字段描述不同类型关键词的相同属性，如以规范标目字段描述各类关键词的规范标目属性，以非规范标目字段描述相关非规范标目属性，以主题字段描述各类关键词的主题属性，以款目连接字段描述此关键词与它关键词之间的相关性，以附注字段作自然语言的附注等；又以特殊字段分别描述各类关键词的特殊属性，如以籍贯·郡望字段、历官字段、家族谱系字段来描述人名类关键词，以四部类别字段、载体形态字段描述书目类关键词等；最后，以字段之下的子字段反映属性的规定性特征，如以历官字段之下的品阶子字段描述历官的品阶，以类别子字段描述历官的类别，以部门子字段描述历官所属的部门，以年代子字段描述历官的起讫时间等。常规字段规定为必须使用，非常规字段或非相关字段则可选用，字段或子字段依其性质规定为可以重复和不可重复两类。一般的单一条件检索，其检索结果（报表）可以表格形式输出，如果是复合条件的检索，其结果又不便以表格形式表达，就需要编制合乎传统检索习惯的其它输出形式，如职官年表、百官志、家谱、历史地图等形式。以人名索引为例，依照职官年表的方式排检，可由一个人名查到他的同僚、前任、继任，如果按照百官志的序列排检，又可查到他的上级、下级，如果按照谱牒的形式排检，则可查到他的祖先、兄弟、姊妹、子孙及姻亲。以地名索引为例，依照历史地图的形式排检，可查到地名的方位，所属的自然区域、行政区划以及它的历史沿革。机读目录格式包含了供检索用的纪录头标和指针，这样经由基本的数据库管理手段，我们就可以实现数据库的多途径排检功能了。
　　除了以上有关古籍全文检索数据库生成的问题之外，还有应用界面的问题需要探讨。笔者认为，浏览界面是古籍数字化解决方案中必不可少的组成部分，如果没有浏览界面，那么古籍就会变成一堆支离破碎的词汇或段落，无法阅读，而阅读是数字化古籍的首要功能，不能放弃[19]。数字化古籍的浏览界面最好以国际通用的HT

上一页 [1] [2] [3] 下一页

	\| 设为首页 \| 加入收藏 \| 联系我们 \| 友情链接 \| 版权申明 \|
	Copyright 2006-2009 © www.lsqn.cn All rights reserved 历史千年版权所有