”
——对话国家古籍保护中心专家委员会委员、中国社科院研究员杨成凯
“古籍数字化遇到的第一个重要问题是怎样处理异体字”
记者:与普通印刷品数字化相比,对古籍进行数字化处理会遇到什么特殊问题?
杨成凯:古籍数字化遇到的第一个重要问题是怎样处理异体字。今天所谓的一个字,古书中往往有几个不同的写法,有所谓繁体字、古体字、通假字等,例如古书有时把“嫦娥”写成“常娥”,“然”写成“肰”,“法”写成“灋”,这里姑且统称为异体字。把几个异体字归为同一个字,可以叫做给字归“位”。
数字化的古籍资料库最大的优势是便于处理文字内容。在几千万乃至几亿汉字的古书资料中查找一个词语,人工翻阅很难胜任,可是数字化以后编成资料库交给电脑处理,检索结果立等可取。然而这时异体字的问题会跳出来作怪,我们必需把可以归并的异体字关联在一起,当作一个字位,否则一个字有几个异体就要检索几次,使用者不仅不胜
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] ... 下一页 >>