用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 文化 |
相关文章    
您现在的位置: 历史千年 >> 文化 >> 国学文化 >> 正文
《四库全书》数字化 文…
邓小平:“问数字”、“…
国内数字版权第一案终审…
目前我国规模最大的古籍…
古籍出版不擅赚钱易被忽…
古籍出版悲壮突围 市场…
古籍出版悲壮突围 市场…
古籍出版悲壮突围 市场…
中国数字出版门户网站“…
国图3年内停止外借图书…
最新热门    
 
古籍数字化:风景背后

时间:2011-07-19 11:56:24  来源:不详
 

    清华大学智能图文信息处理研究室——“谁为我们的技术[注: 不论何种文化,技术都是异曲同工的词汇。它可以指物质,如机器、硬件或器皿,但它也可以包含更广的架构,如系统、组织方法和技巧。]买单?”

 

    眼下,清华大学智能图文信息处理研究室的古籍识别技术研究,几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。

 

    汉文字和少数民族[注: 中国自古以来就是一个多民族国家,少数民族指得是多民族国家中人数最多的民族以外的民族。新中国成立后,通过识别并经中央政府确认的民族共有56个。]文字识别技术研究,是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化,古籍识别系统也在此间渐具规模。

 

    丁晓青告诉记者:“对系统来说,识别和理解古籍要比现代[注: 时间名词欧美所指的时间跨度为:公元后1936年(1936 AD) - 公元后1968年(1968 AD)[现代汉语规范字典] 现今这个时代;我国历史分期上特指1919年五四运动到现今这个时期;有时也指]印刷品复杂得多。而更有挑战性的是,处理每部古籍时,系统都要面对崭新的情况,比如,这部古籍有无钤印、句读、栏线,单行标注还是双行标注,写本还是刻本,普通的文本还是家谱、碑拓……此外,古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性,必须让它尽可能多地接触古籍,提取出新的字样来扩充字符集;同时,在识别形态各异的版式过程中,增强其版面分析判断能力。唯有如此,别无

上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2011 © www.lsqn.cn   All rights reserved
历史千年 版权所有