用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 收藏 | 社会
相关文章    
您现在的位置: 历史千年 >> 教案试题 >> 历史论文 >> 正文
数字与历史
古代史料数字化诸问题初
信息时代古籍整理的困境
简说《战国楚文字数字化
 数字故宫 ——保护、管
从数字遗产信息的破坏谈
从欧洲文化遗产在线(E
数字化博物馆应重视数字
数字化博物馆任重而道
用数字化技术推动保存、
最新热门    
 
古籍数字化:现状、问题与趋势——从一个使用者的角度看

时间:2009-7-24 13:54:24  来源:不详
也给使用者提取资料带来了许多困难。这当中,超星因其巨大的影响而常常成为批评的对象。笔者无意于否认超星保护版权之努力的必要性和合法性,但因其相关技术开发不同步,其本应发挥更大作用的大量图书资源并未得到很好的利用。限制打印页数(每次10页)、浏览器所带的截图工具每次只能截取页面的1/4(最新版本已经改成可整页截图)徒自给合法用户(读书卡注册用户)增添麻烦(因为其浏览器的破解版本完全可以破除这些限制),而且其所提供的OCR工具,对当代标准印刷的直排繁体图书的文字识别已经无能为力,更谈不上识别古代写、刻、钞、稿本的文字了。在这一点上,超星以及类似的数字图书馆似乎仅仅把自己定位在为读者提供普通的图书阅读,而对专业研究者所需要的快速检索、并将检索结果直接转换成编辑文本方面还关注不够(超星提供的全文检索工具颇差)。
  (三)队伍组织、项目规划单调,导致了产品开发缺乏连续性
  在队伍组织方面,多数项目的开发以计算机技术和图书馆人员为主,技术公司和图书馆之间的合作,更多的是因为图书馆拥有原始文献资源。而图书馆本身对馆藏图书的数字化,又常常拘泥于传统图书馆的图书借阅形式,而只是将过去的人工手段转化成计算机通讯(这可能也是现在的数字图书馆多数采取图片存储格式的一个原因)。在这一点上,现在的一些项目的开发与用户的需求之间还有相当的距离。
  应该说,在队伍组织和项目规划方面,目前并非没有比较成功的范例可以借鉴。台湾中央研究院的系列电子化项目、元智大学的“网路展书读”、汉文化联盟的《汉文化资料库》采取的都是专业研究专家与技术人员、图书馆三方合作的方式,使得开发的项目与用户(尤其是专业研究者)的实际需求相切合。北京大学的《中国基本古籍库》在设计思路上也采取了这种方式。而超星数字图书馆目前在其浏览器设计中已加入了可由用户编辑专题的虚拟图书馆,使资源开发者与用户之间建立起一种动态合作关系,也显示出一种可喜的变化。
  在项目的整体规划方面,也有不少可以挑剔的地方。按照我个人的理解,一个项目的开发至少应该包含这样的一些步骤:
  开发者对自身开发能力的合理评估和发展目标的合理定位-根据前者选择选题方式、进行市场调查和确定选题-选题可开发内容的信息搜集-确定开发的具体目标(主产品和副产品)-采样-技术处理过程-测试-修改与完善-发布-市场反馈-补丁。
  可以看出,从选题开始,项目开发就是一种多方互动的活动。从选题方式上看,单纯依赖开发者自己的想像,或者依赖文献资源拥有者的倡导,或者依赖部分学者的评议,甚至依赖权威的一两句断言,显然都是不合适的。最根本的一点,就是项目开发应该根据“什么最需要”而非“是否有价值”(如果考虑到开发公司自身的生存问题,还应该加上“是否能够盈利或具有盈利的希望”)的原则去选定,而专家学者的看法通常着眼于“价值”,这种价值认定又往往因其专业限制而难免有局限。
  选题确定以后,对选题可开发内容的信息搜集直接关乎项目开发的连续性。尤其是一些具有“原创”性质的开发项目,其本身所具有的系列开发内容就很丰富。仅我个人所思及,就有这样一些方面:
  其一,版本信息(版本类型、年代、版式、字体、刊刻地点、刻工姓名等)。这部分内容可以通过扫描而得到影象资料而进一步开发。
  其二,全部书籍的详细目录汇总(用以满足不能购买整套软件但希望掌握相关信息的用户的需求)。
  其三,最常用或极具价值的书籍资料(单行或选编进一类专用书籍中,以满足一般用户的需求)。
  其四,项目中所包含的各类专题资料(用以满足专题研究者需求,或引导一般用户进行相关查询)。
  反观现在的一些开发项目(特别是全文检索项目),除了所谓“单机板”、“网络版”之类的“系列”外,在其他方面的开发几乎为零。项目开发者常常抱怨开发出的好产品没有更多的用户使用,却往往忽略了另外一个问题:为什么不利用已有的开发成果,而再开发出能适应不同用户群体需求的产品来?
  除以上三方面外,技术处理上的缺陷、成果推广上的迟缓、开发成本过高导致产品价格过高等,也都对成果的更大范围的应用有着一些影响。

三、“我”需要什么:《四库》全文检索案例分析


  选择《四库全书》全文检索版作为案例,是因为它是目前古籍数字化的一个非常突出的代表。而对它进行分析,只是想根据我自己的使用感受回答这样一个问题:用户究竟需要什么?
  (一)信息容量
  包含3400余种书的《四库全书》全文检索,无疑是现在容量最大的一个古籍数字化工程了。虽然《四库》本身因编纂、版本等方面的问题而为学者所诟病,但因其文献集中,而影印本又可以很

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2009 © www.lsqn.cn All rights reserved
历史千年 版权所有