社会焦点

人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?(2)

字号+ 作者: 来源: 2017-05-11

图丨One-Hop与Multi-Hop对比 该系统的另一个重点是“门控”(Gating),它控制神经网络中的信息的具体流向,给它们指定最佳的处理单元,从而得到最好的翻译结果。打个比方,如果说神经网络会要做的是搜集所有已经完

  图丨One-Hop与Multi-Hop对比

该系统的另一个重点是“门控”(Gating),它控制神经网络中的信息的具体流向,给它们指定最佳的处理单元,从而得到最好的翻译结果。打个比方,如果说神经网络会要做的是搜集所有已经完成的翻译结果,那么门控要做的就是进行精确地筛选,使它最适合当前的语境。

但是,也开始有越来越多的人担忧,经常使用机器去翻译某些常用的特定语言,会使得那些不常使用的语言被进一步边缘化。这就是为什么机器翻译其实有可能会加速濒危语言、甚至文化的消亡。

语言学家们举了一个通俗的例子,比如卫星电视服务,那些经常被电视台使用的语言会逐渐变得更流行更受欢迎,而不经常出现的语言则会渐渐被人们遗忘。

技术的进步是否会进一步加速小众语言、甚至文化的消亡?

Google、Facebook等科技巨头们正在研发的机器学习技术将极大加快不同主流语种间的转换效率,这个已经没有疑问了,但它是否能成为保护小众语言的利器?

  人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?

  图丨语言学家Sebastian Drude 在研究巴西的印第安语言Awetí

这是一个很有远见的设想,但问题是机器翻译依赖于大量被标记的数据。这些数据集是由人工翻译的各种语言的大量书籍、文章和网站组成。机器学习算法就像罗塞达石碑(石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容)一样,数据集越大,学习效果越好。

然而对于大多数语言来说,这种庞大的数据集根本不存在。这就是为什么目前机器翻译只能够翻译最常见的几种语言。例如,Google翻译只能处理90种语言。

  人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?

  图丨谷歌翻译

因此语言学家面临的一个重要挑战就是需要找到一种方法,可以自动分析那些小众语言,以便让计算机更好地理解它们。

最近,德国慕尼黑大学的Ehsaneddin Asgari和Hinrich Schutze表示他们已经在这方面取得了关键性突破。他们展示的新方法揭示了几乎适用于任何语言的重要元素,这些元素可以很好地帮助机器翻译。

这个新技术是基于一个已被翻译成至少2000种不同的语言的单一文本:《圣经》,语言学家早已认识到它的重要性。

人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?

因此,他们创建了一个名为“平行《圣经》语料库”的数据库,这其中包含了用1169种语言翻译的《新约》。然而这个数据集还不足以用于Google和其他商用机器翻译系统。所以,Asgari和Schutze提出了另一种方法:分析不同语言中,各种时态的表达方式。

大多数语言都会使用特定的单词或字母组合来表示时态。所以这个新方法的小技巧是利用人工去识别一些语言中时态出现的信号,然后采用数据挖掘来搜索其他语言,找到扮演相同角色的单词或字符串。

例如,在英文中,进行时是用“is”来表示,将来时态用“will”,而过去时用“was”。当然这些词也有其他含义。

Asgari和Schutze的想法是在《圣经》的英文翻译中找到所有这些词,以及其他语言中相对应的例子。然后查找在其他语言中扮演相同角色的单词或字母串。例如,字母“-ed”在英语中也表示过去时态。

值得注意的是,Asgari和Schutze不是以英语作为一开始的基准。因为英语是一种比较古老的语言,有许多例外的情况,这会使得机器很难学习。

  人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?

  图丨古英语写成的文章

相反,他们从根据其他语言混合发展而成的克里奥尔语系(Creole Language)开始。因为这种语言出现得较晚,它还没有足够长的时间来发展出丰富的语言特质。这意味着它们通常包含更明显的语言特征标记,譬如时态。

两位德国学者表示:“我们的依据是,克里奥尔语比其他语言更为规范,因为这个语系很年轻,并没有积累那些容易让计算分析更复杂的‘历史包袱’。”

人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?

图丨克里奥尔语于17-18世纪出现于北美和加勒比海地区,用于欧洲殖民者与奴隶的交流

这其中之一是塞舌尔(Seychelles)克里奥尔语,它使用“ti”这个词来表示过去时。例如,“mon travay”是指“I work”,而“mon ti travay”意味着“I worked”,“mon ti pe travay”意思是“I was working”。所以对于判断过去时来说,“ti”是一个很好的指示符列表。

Asgari和Schutze编译了10种其他语言的过去时态指示符列表,然后在“平行《圣经》语料库”中,把用于执行相同功能的其他语言的单词和字符串挖掘出来。对于现在进行时和一般将来时他们也采用了相同的方法。

实验的结果非常有趣,这项技术揭示了与一般常用语言有关的语言学结构,并创建一张关联图,显示使用相似时态结构的语言是如何联系的(如下图)。

  人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章