用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 收藏 | 社会
相关文章    
您现在的位置: 历史千年 >> 教案试题 >> 历史论文 >> 正文
数字与历史
古代史料数字化诸问题初
信息时代古籍整理的困境
简说《战国楚文字数字化
 数字故宫 ——保护、管
从数字遗产信息的破坏谈
从欧洲文化遗产在线(E
数字化博物馆应重视数字
数字化博物馆任重而道
用数字化技术推动保存、
最新热门    
 
古籍数字化:现状、问题与趋势——从一个使用者的角度看

时间:2009-7-24 13:54:24  来源:不详
快解决扫描底本问题,选择它进行数字化在目前无疑是非常正确的。比较一下它和《中国基本古籍库》的工作进度,就可以发现《四库》全文检索在解决用户的最迫切需求上厥功甚伟。《中国古籍基本库》自1998年启动,至今将近四年,尚未见到成型的产品面世。而《四库》前后仅三年就完全开发成功。甚至当初极力反对这项工程的学者,现在也成为它的积极的使用者,这本身就说明了这项工程的价值所在。
  《四库》全文检索之受到欢迎的一个重要原因,就是其信息量的巨大。这种情形,也反映出另外一个问题:倘若在版本与信息容量上不能兼顾,是选择版本好但容量少,还是选择版本稍差但信息容量大的图书进行数字化?据笔者本身以及所知的一些情况来看,恐怕多数人还是选择后者。举例说来,笔者的一位学友想搜集历史上蝗灾的资料,每日前往图书馆翻阅图书(逐页翻查,苦不堪言),犹恐遗漏,后通过笔者检索《四库》“蝗”字,即刻得4535卷、11329个匹配。由此把节省的大量时间转入资料的考订和搜集《四库》所无之书中的资料,较之其先前的工作方式,优劣判然。
  也因为如此,笔者深感已经大大超越同类数字化工程容量的《四库》全文检索,在容量上仍然不能满足要求。比如笔者目前正在进行《明儒学案》的文献学研究,想查证其中的传记资料和黄宗羲摘编的学术资料的原始来源,《四库》全文检索对多数人物无能为力。《四库》中宗教类资料很少,明代著作未收者颇多,而清代因修书时代限制几乎无法利用,这些缺憾都还需要其他数字化项目来补充。
  (二)显示模式
  《四库》电子版采取了检索结果、原文图像、全文阅读三种显示模式并可快速切换,亦属独创。这种显示模式的确有它的好处。原文图像和全文阅读的精确对应,在两者之间建立起了直接的勘校关系,可以解决全文阅读时的部分文字错误。特别是对古今字、异体字、避讳字等的关联检索没有达到完善匹配的时候,原文图像在补字和校正错字方面就有重要作用。
  但是,这种方式也存在诸多问题,汇总如下。
  1.检索结果方面
  1)单机版的检索结果能打印但不能复制(网络版可以通过网页拷贝方式复制),有卷数、书名而无其他可显示该条资料的内容,使得在缺乏随身携带全文检索的情况下无法与其他的书籍内容进行比对。(这一点在书同文《四部丛刊》的开发中已经得到修正。)
  2)检索结果必须通过阅读原文才能知晓具体内容,不能集中显示,也给用户使用带来了一些麻烦。比如“朱子”的检索结果就高达9133卷、37910个匹配,若将此外的“文公”(13180卷,33153个匹配)、“晦庵”(1665、3293)、“朱熹”(1839、4508)加在一起,计有25817卷、78864个匹配。至于“孔子”,更是高达23757卷、111641个匹配。假定每个匹配的阅读时间平均为1分钟(加上复制相关资料、标点,实际一条资料的处理时间远远超过1分钟),每天八小时不间断地阅读,则“朱子”等条资料需要花164天、“孔子”需要花233天才能阅读完毕。如果是通过网络阅读,其麻烦会更大些。(台湾中央研究院的《汉籍电子文献》、陈郁夫先生的“寒泉”检索系统都采用了可以分段显示的方法,甚是便利。)
  2.原文阅读方面
  1)原文显示上区分正文和注文,一方面将有些并非注文的小字误作注文,另一方面在拷贝时将注文置于页末,颇为不便。(后者在《四部丛刊》全文检索中已经得到纠正。)
  2)未妥善解决异体字等关联问题,导致有些文章在拷贝后必须补充大量空缺的文字(四库自带了方正楷体大字库,但并非所用使用者的本地机上都有这种字库,因而在无此字库支持的电脑上阅读和编辑都不方便)。
  此两者可举《晦庵集》中一条为例。原文截图如下:

拷贝到相关编辑器中的结果如下(截图):

 

  

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2009 © www.lsqn.cn All rights reserved
历史千年 版权所有