古籍数字化：风景背后_国学文化

清华大学智能图文信息处理研究室——“谁为我们的技术[注: 不论何种文化，技术都是异曲同工的词汇。它可以指物质，如机器、硬件或器皿，但它也可以包含更广的架构，如系统、组织方法和技巧。]买单？”

眼下，清华大学智能图文信息处理研究室的古籍识别技术研究，几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。

汉文字和少数民族[注: 中国自古以来就是一个多民族国家，少数民族指得是多民族国家中人数最多的民族以外的民族。新中国成立后，通过识别并经中央政府确认的民族共有５６个。]文字识别技术研究，是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化，古籍识别系统也在此间渐具规模。

丁晓青告诉记者：“对系统来说，识别和理解古籍要比现代[注: 时间名词欧美所指的时间跨度为:公元后1936年(1936 AD) - 公元后1968年(1968 AD)[现代汉语规范字典] 现今这个时代；我国历史分期上特指1919年五四运动到现今这个时期；有时也指]印刷品复杂得多。而更有挑战性的是，处理每部古籍时，系统都要面对崭新的情况，比如，这部古籍有无钤印、句读、栏线，单行标注还是双行标注，写本还是刻本，普通的文本还是家谱、碑拓……此外，古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性，必须让它尽可能多地接触古籍，提取出新的字样来扩充字符集；同时，在识别形态各异的版式过程中，增强其版面分析判断能力。唯有如此，别无

上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>

	\| 设为首页 \| 加入收藏 \| 联系我们 \| 友情链接 \| 版权申明 \|
	Copyright 2006-2011 © www.lsqn.cn All rights reserved 历史千年版权所有