清华大学智能图文信息处理研究室——“谁为我们的技术[注: 不论何种文化,技术都是异曲同工的词汇。它可以指物质,如机器、硬件或器皿,但它也可以包含更广的架构,如系统、组织方法和技巧。]买单?”
眼下,清华大学智能图文信息处理研究室的古籍识别技术研究,几乎处于停滞状态。研究室主任丁晓青教授为此焦虑不安。
汉文字和少数民族[注: 中国自古以来就是一个多民族国家,少数民族指得是多民族国家中人数最多的民族以外的民族。新中国成立后,通过识别并经中央政府确认的民族共有56个。]文字识别技术研究,是丁晓青团队20年来专注推进的一项工作。作为文字识别技术的具体化,古籍识别系统也在此间渐具规模。
丁晓青告诉记者:“对系统来说,识别和理解古籍要比现代[注: 时间名词欧美所指的时间跨度为:公元后1936年(1936 AD) - 公元后1968年(1968 AD)[现代汉语规范字典] 现今这个时代;我国历史分期上特指1919年五四运动到现今这个时期;有时也指]印刷品复杂得多。而更有挑战性的是,处理每部古籍时,系统都要面对崭新的情况,比如,这部古籍有无钤印、句读、栏线,单行标注还是双行标注,写本还是刻本,普通的文本还是家谱、碑拓……此外,古籍中还有大量形态各异的异体字。情况异常复杂。要提高古籍识别系统准确性,必须让它尽可能多地接触古籍,提取出新的字样来扩充字符集;同时,在识别形态各异的版式过程中,增强其版面分析判断能力。唯有如此,别无
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>