机器翻译再走新高，距离“重建”巴别塔有多远？_

机器翻译再走新高，距离“重建”巴别塔有多远？

　　来源：Pixabay

　　从1954年IBM-701 计算机首次将「Mi pyeryedayem mislyi posryedstvom ryechyi」翻译成「我们通过语音传递思想」到现如今谷歌机器翻译又添新语种，在这六十多年里机器翻译似乎正在一点一点地瓦解语言所形成的国家与国家之间，文化与文化之间的壁垒，那么，我们是不是可以想象：有朝一日，人类打破上帝曾经对于人类的“诅咒”，“重建”巴别塔……

　　“翻译”是对文明的传承与发展

　　在《圣经?旧约?创世记》中有一章，讲述了当时人类联合起来兴建希望能通往天堂的高塔——巴别塔，上帝知道后为了阻止人类的计划，改变了人类的语言，使人类相互之间不能沟通，计划因此失败，人类自此各散东西。

　　翻译真的有这么重要吗？是的，翻译背后是语言，语言的本质是符号，翻译就是对符号的“编码”和“解码”。

　　从一种语言翻译到另一种语言，就是对一种编码进行解码，再重新编码为另一套体系。

　　在中国四大名著之一《西游记》中唐三藏从东土大唐前往西天取经，得到经书之后翻译加以传播，普渡众生，可以说是符号（语言）“编码”——“解码”学说的一大有力实证。

　　在这里，说到“翻译”，似乎大家约定俗称地默认为“人工翻译”，那么在二十世纪三十年代初，当法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法之后，“翻译”似乎有了两个分支“人工翻译”和“机器翻译”，虽然后者还只是存在于意识中。

　　1949，在世界上第一台现代电子计算机ENIAC诞生3年之后，信息论的先驱、美国科学家瓦伦?韦弗（Warren Weaver）发表了《翻译备忘录》，首次建议将计算机应用于翻译。

　　1954年，美国乔治敦大学（Georgetown University）在 IBM 公司协同下，以 IBM-701 计算机首次完成基于 6 项语法规则和 250 字词汇表的俄英翻译系统，能将「Mi pyeryedayem mislyi posryedstvom ryechyi」翻译成「我们通过语音传递思想」，从而将机器翻译从意识流转化为实物，拉开机器翻译研究的序幕。

机器翻译再走新高，距离“重建”巴别塔有多远？

　　Warren Weaver

　　在机器翻译发展的这六十多年里，出现了多种基于不同原理的机器翻译系统，从方法上来说，大概可以分为四类：

　　第一类：基于规则的机器翻译

　　从70年代中期到80年代末在机器翻译界占主导地位的就是基于词和语法规则的机器翻译系统了，这种方法是在翻译的过程中对源语言进行分析并对源语言的意义进行表示，然后再生成等价的目标语言。该系统从体系结构上来划分的话，可以分为直接翻译系统、转化翻译系统和基于中间语言的翻译系统。

　　在基于规则的机器翻译系统中，里面用到的规则是由语言学家进行编写的，虽然经过研究者们的努力已经建立了包含上万个规则的规则库，可是大量人力物力的消耗、时间周期的过于长久、实验的代价较大都是基于规则的机器翻译系统不容忽视的缺点。实际上，人类并不了解大脑是如何工作的，却仍然可以将工作做得很好，但是，人类自己语言熟练，并不代表人类能理解自身的语言神经是怎么运作的。这就导致基于人工规则的翻译软件翻译出一些令人啼笑皆非的译文。

　　针对基于规则的机器翻译系统的诸多弊病，功能更为齐全的新翻译系统应运而生。

　　第二类：基于实例的机器翻译

　　20世纪80年代中期，日本著名的翻译专家长尾真（Makoto Nagao）提出了基于实例的机器翻译的基本思想：不进行深层分析，仅仅利用已有的经验知识，通过类比对语言进行翻译。

　　基于实例的机器翻译系统的特点有：

　　1.系统中知识以翻译实例和语义词典等形式存在,系统易维护,可以利用增加实例和词汇的方式很容易地扩充系统。

　　2.如果利用较大的翻译实例库或输入与实例精确匹配时,翻译出来的译文质量相对来说比较高。

　　3.基于实例的机器翻译系统通过类比进行翻译，避免了基于规则的机器翻译必须进行的深层次语言学分析。

　　4.语种相关知识很少,只要记忆库中存在外形与输入相似的句子,即可匹配.EBMT对于相同或相似的文本,有非常显著的翻译效果,随着例句库规模的增加,其作用也愈显著。

　　虽然基于实例的机器翻译系统翻译效果显著提高，可是，在有些方面还是有些不尽人意的。一方面，由于语料库规模的限制，将语料库中的源语言文本和目标语言文本中意思相同的一群通过算法对应起来还是存在一定的难度的。另外，实例匹配相似度也是亟待解决的问题。

　　第三类：基于统计的机器翻译

　　基于统计的机器翻译方法是20世纪90年代兴起的一种翻译方法，也是当前机器翻译的主要方法。

　　“统计机器翻译方法”（SMT），即通过对大量的平行语料进行统计分析，找出常见的词汇组合规则，尽量避免奇怪的短语组合。SMT翻译短语效果好，但是对于翻译句子的翻译结果就差强人意了，直到近几年基于神经网络的翻译模型（ NMT）崛起。

转载请注明出处。