用户名: 密码:
会员中心 在线投稿
| 网站首页 | 中国历史 | 世界历史 | 历史名人 | 教案试题 | 历史故事 | 考古发现 | 历史图片 | 文化 | 社会
相关文章    
您现在的位置: 历史千年 >> 文化 >> 文化研究 >> 正文
受辱女服务员刺死官员是…
数字解密奥运故事
这是最好的时代,也是最…
网络时代的操盘手和弄潮…
求看数字卦
用数字调节命运法
你知道数字密码占卜你的…
数字占卜
好玩的数字占卜
日常生活的数字忌讳
最新热门    
 
数字时代情报学发展展望(笔谈)--跨语言检索技术:策略与方法

时间:2009-8-8 16:47:09  来源:不详
方法的一个共同特征是都使用了语料库资源来训练CLIR机制或者建立用于检索的信息结构。
    所用的语料库有三种类型:平行语料库、可比较的语料库或者未对齐的语料库。
    1.平行语料库。平行语料库是由若干包含一篇文献及其对应的一种或几种语种的译文的集合所构成的,库内含有很多翻译知识。这些知识能够以下列的方式利用:(1)可从对齐的语料库中自动衍生出双语种或多语种词典,特别是专业性的平行语料库对于推断短语的翻译或者至少对于识别短语极为有用;(2)系统输入新文献之前,将平行语料库中的文献存储在双语种或多语种向量空间中,并对它们进行潜语义标引,从而可以获得一个双语种或多语种语义空间。通过将系统新输入的文献映射到该空间,可以使得系统实现跨语言潜语义标引。跨语言潜语义标引所需的语料库只需在文献一级对齐;(3)将平行语料库与基于知识的CLIR方法结合使用,可以有效地控制基于知识的方法所面临的一词多译问题。
    基于平行语料库的CLIR面临着这样三个问题:(1)如何获得合适的文献集合以构成适合特定CLIR系统的语料库,这也是任何一种基于语料库的方法都面临的一个问题;(2)文献译文的创建成本很高,这是一个更为严峻的问题;(3)基于平行语料库开发的技术原则上可应用于不相关的应用系统中,但实验表明,在将基于一个系统开发的技术应用于不相关的其它系统时,检索效率会锐减。
    平行语料库不仅可以在文献一级对齐,而且可以在句子一级甚至语词一级实现对齐。Davis使用了一个句子一级对齐的平行语料库来扩充基于词典的翻译。马里兰大学的Dorr和Oard开发了一种基于语词一级对齐的技术,该技术在集成基于词典的技术和基于语料库的技术方面表现出一定潜力。
    2.可比较的语料库。可比较的语料库通常是由多种语言写成的具有相似主题的文献所构成,其中的文献按照所论述的主题进行对齐。它只能在文献一级实现对齐,但获得它要容易的多,因为它不需要包含文献译文。可比较的语料库同样可用于消解语词歧义以及潜语义标引。目前,对基于可比较的语料库的方法研究相对较少,可能是因为可比较的语料库要求基于文献所论述主题之间的相似度进行对齐,而现有的自动和半自动基于相似度的对齐技术都不具备良好的通用性。
    3.未对齐的语料库。它不需要将语料库中的文献以任何方式对齐,而是利用伪相关反馈技术来改进提问式翻译质量,使之与集合中的文献更相似。Ballesteros和Croft对这种方法做了介绍。

      四、结论

    CLIR研究始于使用受控词表的试验,发展到今天,面向自由文本的方法成为主流技术。自由文本方法按照使用的翻译资源可分为:基于机读词典、机器翻译系统、本体或者基于语料库的方法。任何方法所采用的跨语言匹配策略都离不开以下四种:同源匹配、提问式翻译、文献翻译或者将提问式和文献都翻译为同一种独立于语言的表示的语间转换技术。
    值得一提的是,为了改进CLIR方法和系统,近年来举行了多次有关CLIR的评价会议,其中较大型的两个会议是TREC(文本检索会议)和CLEF(跨语言评价论坛)。TREC中CLIR任务的主要目标是:(1)为测试跨语言检索技术创建基础结构,通过创建一个大规模的多语种测试集以及一个通用的评价体系;(2)调查某个多语种语境中的有效的评价程序;(3)提供一个交流研究观点的论坛。CLEF始于2000年,它将重点放在了欧洲语言的CLIR上,而TREC更为偏重亚洲语言的跨语言检索问题。此外,还有十多次关于跨语言检索专题的评价会议或研讨会,Oard对它们做了较为全面的罗列。有关的评价结果和会议论文都可以从这些会议的网站上获得。

上一页  [1] [2] 

 
  | 设为首页 | 加入收藏 | 联系我们 | 友情链接 | 版权申明 |  
Copyright 2006-2009 © www.lsqn.cn All rights reserved
历史千年 版权所有