古籍数字化：风景背后_国学文化

”

——对话国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯

“古籍数字化遇到的第一个重要问题是怎样处理异体字”

记者：与普通印刷品数字化相比，对古籍进行数字化处理会遇到什么特殊问题？

杨成凯：古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字，古书中往往有几个不同的写法，有所谓繁体字、古体字、通假字等，例如古书有时把“嫦娥”写成“常娥”，“然”写成“肰”，“法”写成“灋”，这里姑且统称为异体字。把几个异体字归为同一个字，可以叫做给字归“位”。

数字化的古籍资料库最大的优势是便于处理文字内容。在几千万乃至几亿汉字的古书资料中查找一个词语，人工翻阅很难胜任，可是数字化以后编成资料库交给电脑处理，检索结果立等可取。然而这时异体字的问题会跳出来作怪，我们必需把可以归并的异体字关联在一起，当作一个字位，否则一个字有几个异体就要检索几次，使用者不仅不胜

上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>

	\| 设为首页 \| 加入收藏 \| 联系我们 \| 友情链接 \| 版权申明 \|
	Copyright 2006-2011 © www.lsqn.cn All rights reserved 历史千年版权所有