Facebook发布最新机器翻译成果，表明CNN优于RNN_

Facebook发布最新机器翻译成果，表明CNN优于RNN

　　图：Pixabay

　　语言翻译对于Facebook使世界更加开放和连接，使每个人都能用自己的首选语言以尽可能最高的准确性和最快的速度来分享帖子或视频的使命具有十分重要的意义。

　　今天，Facebook人工智能研究（FAIR）团队发布了使用新颖的卷积神经网络（CNN）方法进行语言翻译的研究结果，该方法以9倍于循环神经系统的速度获得目前最先进的准确度。另外，FAIR序列建模工具包（fairseq）源代码和经过训练过的系统可以在GitHub的开源许可下使用，以便其他研究人员可以构建用于翻译，文本摘要和其他任务的自定义模型。

　　为什么是卷积神经网络（CNN）？

　　CNN最初是由Yann LeCun在几十年前开发的，现如今，CNN在多个机器学习领域，如图像处理方面的应用已经非常成功。但是，由于循环神经网络（RNN）是文本应用的现任技术，并且因其具有高精度，现早已成为语言翻译的首选。

　　虽然历史上，RNN在语言翻译任务上的表现优于CNN，但它的设计具有固有的局限性，这一点可以通过查看他们如何处理信息的来加以理解。计算机是通过以一种语言来阅读句子，并以另一种语言来预测具有相同含义的一系列单词来进行文本翻译的。RNN是按照严格的从左到右或从右到左的顺序，逐字逐句进行执行的。对于驱动现代机器学习系统的高度并行的GPU硬件来说，这是一个不太自然的契合。计算不能完全并行化，因为每个单词必须排队等候，直到网络完成前一个单词。相比之下，CNN可以同时计算所有元素，充分地利用了GPU的并行性。因此，它们在计算上更有效率。CNN的另一个优点是以分层的方式来处理信息，这使得捕获数据中的复杂关系变得更加简单。

　　在以往的研究中，CNN在应用于翻译方面并没有显示出超越RNN的优越性。然而，由于看到了CNN在架构潜力，FAIR开始着手研究CNN在这方面的应用，从而导致了一个翻译模型设计的诞生，充分显示了CNN在翻译方面的强大性能。强大的计算效率使得CNN有望扩展翻译的规模，范围可覆盖全球6500多种语言。

　　以创纪录的速度取得当前最佳地位

　　我们的研究结果表明，与RNN相比，在由机器翻译会议（WMT）提供的广泛使用的公共基准数据集上，我们已经达到了一个新的最先进的地位。特别是，CNN模型在WMT 2014英语—法语任务上的结果优于之前的最佳结果—1.5 BLEU（这是一个广泛使用的用于判断机器翻译准确性的度量标准）。在WMT 2014英语—德语中，我们提高了0.5 BLEU；在WMT 2016英语—罗马尼亚语中提高了1.8 BLEU。

　　对于在实际中的应用，神经机器翻译需要考虑的一个因素是，一旦我们向系统显示一个句子，需要多长时间来获得一个翻译结果。FAIR CNN模型在计算上非常有效，比强RNN系统快了接近9倍。许多研究集中在通过量化权重或浓缩等方法来加速神经网络，列举几种方法，并且这些方法可以同样适用于CNN模型，用以提高速度，显示出在未来的巨大潜力。

　　具有多跳注意（multi-hop attention）和门控（gating）来获得更佳翻译效果

　　我们的架构的一个显着组成部分是多跳注意。注意机制类似于一个人在翻译句子时会分解句子的方式：不同于仅仅看一次句子，然后写下完整的翻译而不回头查看的方式，我们的网络（翻译时）会在句子上采取重复地“回瞥”从而选择下一步将会翻译哪个词，很像人类在翻译时，写下句子，然后偶尔回顾一下具体的关键词。多跳注意是这种机制的增强版本，它允许网络进行多次这样的瞥见，以产生更好的翻译结果。这些瞥见也取决于彼此。例如，第一瞥可以集中在一个动词上，而第二个瞥见则将注意力集中在相关联的辅助动词上。

　　在下图中，我们展示了系统何时读取法语短语（编码），然后输出英文翻译（解码）的过程。我们首先运行编码器，使用CNN为每个法语单词创建一个向量，同时进行计算。接下来，解码器CNN会以一次一个的频率产生英文单词。在每一步，注意力都会关注法语句子，以决定哪些词语与翻译中的下一个英文单词最为相关。在解码器中有两个所谓的层，下面的动画说明了在每个层中注意力是如何执行的。绿线的强度表示网络对每个法语单词的重视程度。当网络被训练时，翻译可以一直进行，而对于英文单词的计算也可以同时进行。

Facebook发布最新机器翻译成果，表明CNN优于RNN

　　我们系统的另一个方面是门控，控制神经网络中的信息流。在每个神经网络中，信息都要流经所谓的隐藏单元。我们的门控机制将控制哪些信息会传递到下一个单位，以便能够产生良好的翻译。例如，当预测下一个字时，网络会考虑到迄今为止所产生的翻译。门控将允许它放大翻译的一个特定方面或获得更广泛的概况，而这些取决于网络认为哪些内容更适合于当前的语境。

　　发展前景

　　这种方法是机器翻译的一种可替代架构，为其他文本处理任务开辟了新的可能性。例如，对话系统中的多跳注意使得神经网络能够集中在谈话的不同部分，例如两个单独的事实，并将它们结合在一起，以便更好地应对复杂的问题。

Facebook发布最新机器翻译成果，表明CNN优于RNN

相关阅读：

相关推荐：