A-A+

机器翻译系统

2008年12月14日 业界资讯, 技术文章 暂无评论 阅读 1 次

自从1949年Warren Weaver发表《翻译》备忘录,正式提出机器翻译的思想以来,到现在已经经过了半个多世纪。虽然机器翻译的现状离人们的期望和市场的需求都还有相当大的距离,远远不能满足人们的要求,不过人们对机器翻译研究的热情依然很高。这一方面是因为机器翻译的巨大需求和应用前景在不断激励着人们从事这方面的研究工作;另一方面,仅从学术角度看,机器翻译也是一个非常有意义的研究课题,其复杂性、挑战性和高难度的特点对研究者而言充满了魅力。机器翻译的研究,大大加深了人们对于语言、知识、智能等问题的了解,促进了相关学科的发展。作者认为,对全自动高质量机器翻译的不懈追求,正是计算语言学研究的终极目标之一和不竭动力的源泉。
最早的机器翻译是建立在简单的单词对译、词频统计和词序变化的基础上。当人们认识到这种方法的局限性后,开始加强了对自然语言理解的研究。伴随着人工智能研究的发展和乔姆斯基语言学的大行其道,规则方法成为了机器翻译研究的主流。研究者发现,在一些小规模应用或演示环境中表现出色的规则方法,在真正的大规模应用中却表现得非常糟糕。于是,从1990年初开始,统计方法又被重新引入到自然语言处理研究中,在机器翻译方面,IBM公司提出了著名的基于信源信道模型的统计机器翻译方法。在这以后的一段时间内,尽管统计方法在自然语言处理的很多领域都获得了成果,但对于机器翻译来说,统计方法并没有马上建立起优势地位。由于机器翻译问题本身的复杂性和计算机运行能力的限制,在很长一段时间内,很少有人能够重复IBM的统计机器翻译工作,以至于很多人对统计方法在机器翻译中的效果产生了怀疑。不过近年来,在一批研究者的不断努力下,也得益于计算能力的普遍提高,统计机器翻译终于开始表现出明显的优势并受到了普遍的重视。在最近的一些机器翻译评测中,基于统计方法的机器翻译系统取得了很好的成绩。
统计机器翻译方法近年来发展迅猛。从早期的基于词的信源信道模型的方法,到目前比较成熟的基于短语的对数线性模型的方法,再到目前热门的基于句法的统计翻译模型研究,统计机器翻译也经历了一个转换层次由浅入深的过程。机器翻译的水平比传统的基于规则的方法有了较大幅度的提高。
不过,总体上,目前机器翻译的水平依然不高。机器翻译还没有达到让一般人基本可读的水平,尤其是汉英机器翻译。
汉语是我们的母语,是数千年中华文化的主要载体,同时又是一种非常独特的语言。目前,汉字的输入、输出等方面的问题已基本解决,而汉语更深层次的处理,如词法、句法、语义分析、机器翻译等,和世界上其他一些主要语种的处理技术相比,还有一定的差距。这可能有语言学上的原因。通常人们认为,汉语是孤立语,由于缺乏形态上的标记,汉语的自动分析和处理会比其他语言更加困难。目前,自然语言处理研究的实践也证明了这一点。在句法分析方面,同样是以美国宾州大学开发的树库作为训练语料,同样采用词汇化概率上下文无关语法训练出来的汉语句法分析器和英语句法分析器,汉语句法分析器的标记正确率和召回率比英语大约低10个百分点。在美国国家标准技术局(NIST)举办的2005年机器翻译评测中,在所提供的训练语料类型和规模都大致相当的情况下,最好的阿拉伯语到英语的机器翻译系统的BLEU一种机器翻译质量的自动评分指标。评分是0.5131,而最好的汉语到英语的机器翻译系统的BLEU评分只有0.3531。这些事实表明,关于汉语的自然语言处理研究,困难确实比其他语言要更大一些。应该说,加强这方面的研究工作对中国的自然语言处理研究者来说是责无旁贷的。
本书共有以下10章,主要围绕汉英机器翻译中的一些关键技术展开讨论。
汉英机器翻译若干关键技术研究前言第1章是综述,介绍了机器翻译最近一段时间的研究进展,以及我们对机器翻译的一些认识。机器翻译技术方法各异,种类繁多,非常复杂。我们主要从范式和分类这两个方面对现有的机器翻译技术作了介绍。范式方面,主要介绍了传统的基于规则的转换方法以外的几种范式,包括基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于信源信道模型的统计机器翻译方法、基于对数线性模型的机器翻译方法、多引擎机器翻译方法等。分类方面,主要从机器翻译的转换层面和机器翻译的知识表示形式这两个角度对现有的机器翻译方法进行了分类。
第2章提出了一种基于层叠的隐马尔可夫模型汉语词法分析算法。这个算法由多个层叠的隐马尔可夫模型构成,粗切分采用基于N最短路径的算法,简单未定义词和复合未定义词采用基于角色的隐马尔可夫模型识别新词,并采用基于角色的词语生成模型估计未定义词的概率;细切分采用词汇化的隐马尔可夫模型;词性标注采用基于词性的隐马尔可夫模型;多种模型紧密结合,下层模型不仅提供多个最好的分析结果供高层模型使用,而且也给出了这些结果的概率。模型之间环环相扣,互为补充,最终达到整体结果的最优化,同时保持算法的高效率(线性时间复杂度).
第3章介绍了一种融合语义知识和词汇化上下文概率语法的汉语句法分析方法。现在主流的句法分析研究都是基于词汇化概率上下文无关语法来进行的,这种研究主要的知识来源都是事先由人工制作的树库(treebank) 。由于树库的制作需要耗费大量人力,因此,树库的规模都不可能太大,因而存在比较严重的数据稀疏问题。我们通过引入两部同义词词典(“同义词词林”和“知网”) ,在一定程度上缓解了数据稀疏问题,提高了汉语句法分析的准确率和召回率。
第4章介绍了一种汉语句法分析和词法分析的融合策略。由于句法分析器训练时所采用的树库规模较小,存在比较严重的数据稀疏问题,而词法分析器则可以采用一些公开的大规模汉语切词和词性标注语料库。但由于切词和词性标注的标准不一致,用这种大规模语料库训练出来的词法分析器还不能直接用在句法分析器中。为此我们分别采用错误驱动的方法和条件随机场算法,将词法分析器分析得到的结果通过切词和词性标注两方面的转换,适应了树库的切词和词性标注标准,成功地将不同标准的词法分析器和句法分析器进行了融合,显著提高了句法分析的性能。
第5章提出了一种基于“知网”的词汇语义相似度计算模型。这种方法充分利用了“知网”中所包含的丰富的人类语言学知识,直接计算两个词语的语义相似度,而无需通过大规模语料库的训练,方法简单有效。这种方法可广泛用于词义排歧、基于实例的机器翻译等多个领域。
第6章提出了一种对数线性模型的词语对齐方法。这一方法首次将判别训练的思想引入词语对齐研究中,使得我们可以利用各种形式的特征来改进词语对齐的性能,大大拓宽了词语对齐研究的思路,也显著降低了词语对齐的平均错误率。
第7章提出了一种高效的双语短语对齐搜索算法。这种算法的主要优点是可以尽可能避免词语对齐错误给短语对齐带来的干扰,使得短语对齐的正确率和召回率比词语对齐的相应指标都要高出很多,效果很好。算法采用柱形搜索策略,时间消耗随着句子长度线性增长,效率也非常高。
第8章定义了一种可以刻画两种语言深层句法结构对应关系的短语结构转换模板,并给出了从双语短语对齐的语料库中抽取这种模板的算法。对实验结果的初步分析表明,从一个八千句子对的短语对齐语料库中抽取出来的模板,已经可以覆盖各种常见的汉英句法结构的转换模式。
第9章提出了一种微引擎流水线机器翻译系统结构。在这种结构下,整个机器翻译过程被分解成若干个串行的阶段,每个阶段可以有若干个功能相似的部件(微引擎)同时工作。通过添加和删除微引擎以及调整流水线的结构很容易实现各种机器翻译构件的协调工作,而无需修改系统的总体翻译算法和数据结构,有利于提高机器翻译系统的开发效率以及尝试新的机器翻译方法。其中介绍了一个基于这种结构实现的面向新闻领域的汉英机器翻译系统,并给出了实验结果。
第10章对本书进行了全面总结,介绍了下一步的工作计划。
本书涵盖的研究工作反映了作者所在研究团队在汉英机器翻译研究方面进行的一系列努力,本书也是对我们现有研究工作的一个阶段性总结。我们的这些工作受到国家重点基础研究项目( "973”计划)子课题“面向大规模真实文本的汉语计算理论、方法和工具”(课题编号G1998030507-4)、国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”(项目批准号60736014)和中国高技术研究发展计划( "863”计划)重点项目课题“面向跨语言搜索的机器翻译关键技术研究”(课题编号2006AA010108)资助,特此表示感谢!
机器翻译研究涉及的领域非常广,技术门类也非常多。本书每一章都是对汉英机器翻译中某一项具体关键技术的研究。虽然在本书中我们还没有将这些技术集成到一个完整的机器翻译系统中去,不过所有这些技术对于构造一个完整的机器翻译系统都是非常重要的。我们希望本书对真正希望从事汉英机器翻译研究的人士有所帮助,对相关领域的研究人员和学生也能够具有参考价值。

给我留言

Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录

测试聊天