机器翻译再走新高,距离“重建”巴别塔有多远?(2)
2017-04-25 编辑:
神经网络机器翻译(NMT)模拟人脑神经的层级结构,具有多层芯片网络,从基础层开始,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式。人不了解那些规则也没关系,反正交给机器了,只要结果正确即可。这就是端到端的翻译。
那到底什么是神经网络?神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习。
“神经网络技术在数据结构以及学习结构上模拟了人脑,并且‘学什么’这个问题也由机器自动掌握。再者,统计机器翻译里一百万行的代码,在神经网络机器翻译里只需要280行就可以解决了。”——Marco Trombetti
来源:Pixabay
相较于“统计机器翻译方法”(SMT)聚焦于局部信息(短语),神经网络机器翻译(NMT)更擅长利用全局信息——在对整个句子的信息解码、编码后才能生成结果。所以无论是语音识别还是翻译,都会发现句子长一点,机器识别和翻译的效果就会更好一点。 比如,语序问题是“翻译”头疼的问题,中文会把所有的定语都放在中心词前面,英文则会倒装,以往机器常混淆这个顺序。 NMT通过基于深度学习的神经网络,向人类较好地学习到语序模式,长句翻译比以往流畅多了。
谷歌最近宣布启动的神经机器翻译系统(GNMT)就是利用神经网络将语音直接转译成文本,它是通过学习去找到源语言和书面文本中的波形之间的对应关系模式。并且在TPU上运行,能降低55%-85%的翻译错误,并且十分接近人类译员的翻译水平,这在业内引起很大关注。
语音机器翻译的常规工作模式是先将语音转换成文本,然后将其翻译成另一种语言,但语音识别中的任何错误都会导致转录过程中的错误以及翻译错误。
而谷歌的深度学习研究机构Google Brain的研究人员利用神经网络取代了中间环节。通过这种跳过转录的方法,使得翻译更准确、更快捷。
第四类:混合式机器翻译模型
在机器翻译行业中各种翻译模型磅礴发展,但也不约而同地存在着各式各样的缺陷。基于此,有些研究者就开始转向混合式机器翻译模型的研究。例如在一个基于Factored的维汉机器翻译系统中,将Factored系统和基于层次短语的Joshua翻译系统以及Moses中基于句法的翻译模型进行系统融合,构建一个混淆网络,就可以提高翻译的效果。
异军突起亦道阻且长
机器翻译发展这么迅速,翻译效果也在不断提高,那么,以后还需要学习外语吗?机器翻译是不是可以代替人工翻译?
“应该不会,”百度副总裁,AI技术平台体系(AIG)总负责人王海峰曾肯定地说,“它不仅不会威胁到翻译人员的生存,反而会给他们带来工作上的便利,据我所知,很多翻译人员的手机里也安装了我们的产品。机器翻译和人工翻译各有优势,一个机器翻译系统可以同时掌握几十种语言的翻译能力,也可以擅长多个领域的翻译,这是翻译人员们所不具备的。但同时,优秀的翻译人员可以将语言的细微之处翻译出精妙的美感来,这也是机器翻译系统无能为力的。所以说二者互补,彼此不能相互替代。”
对于语言的翻译,其实不仅仅是“编码”——“解码”这种一对一的输入输出关系,里面蕴含的更多是文化。不同语言之间的文化壁垒仅仅依靠翻译语言的表层意思还是难以打破的。
1898年,严复在《天演论?译例言》中,第一次提出了“信达雅”的翻译标准指译文要忠实于原文,不拘泥于原文形式,准确表达原文意思,追求原文意境。
相比于高质量的人工翻译来说,机器翻译虽然有了人工智能这一大利器,准确度有了很大程度上的提高,在一定程度上可以达到“信”的标准,但在实现翻译“雅达”要求上可能就力不从心了。而对于那些有着多种修辞手法的诗歌、小说来说,要想有一个较为精确的翻译难度就更加大了。机器翻译在揣摩人类思维的旅程中还是有很长的路要走的。为了弥补这些不足,现在更多的翻译公司采取的是人工智能+人工的人机翻译模式。
百花齐放
在人工智能这一科技领域,从来没有谁可以永远“一枝独秀”,而在当下的的AI发展版图中,技术路线有两个非常清晰的两块:一个是图像识别、语音识别方向,另一个就是自然语言处理方向。着眼当前的机器翻译领域,已经形成了中美科技巨头“相爱相杀”的局面。
在美国,谷歌、微软都将神经网络应用于机器翻译领域,谷歌更是表示会将神经网络机器翻译技术推广到Google Translate现在支持的全部103个语种中。前不久谷歌宣布谷歌机器翻译在八种现有语言(英语、汉语、法语、德语、日语、韩语、葡萄牙语、西班牙语和土耳其)之外,新增加了七种新语言:英语、俄语、印地语、越南语、波兰语、阿拉伯语、希伯来语和泰语。新语种的添加使谷歌GNMT离103个语种的翻译又近了一步,而要完成这个目标,剩下的路还有多远呢?
而在中国,百度、科大讯飞等也都在机器翻译领域不断地开辟新疆土。到底,语言是民族的,还是世界的?在机器翻译中,国内国外的这些公司究竟谁能让我们“重建”巴别塔,这是人工智能改变未来的重要场景。
相关阅读:
相关推荐: