上线 12 年,Google 翻译现在支持 100 多种语言,覆盖了全球 99% 的网民。这其中甚至包括信德语(巴基斯坦和印度)、科萨语(南非)等极少人使用的语种。
但最近 Reddit 上有网民发现了一些奇特的现象——在某些语种下,一些特定的词组会被 Google 翻译成看似乱码的宗教话语。
将语言设置成从毛利语翻译成英语后,输入 19 遍 “dog” 这个词,Google 翻译就会将这段话翻译成“世界末日时钟在 12 点 03 分我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越近接近末日和耶稣的回归”
听上去像是悬疑惊悚片里面的台词,这只是 Reddit 上用户挖掘出来许多奇怪的翻译之一。
例如用 Google 翻译从索马里语翻译成英语,输入不同数量的 “ag” ,会得出不同的翻译结果,包括将 “ag” 翻译成 the sons of Gershon (Gershon 的儿子),the name of the LORD (耶稣的名字)。
对于出现这样现象的原因,Reddit 和推特上的网友玩笑地称幽灵和恶魔在 Google 提供翻译服务,或者可能是由不满的 Google 员工恶意生成。但也有一些认真的讨论,包括认为是有些人滥用“建议编辑”按钮,这个功能可以让任何用户帮助给出翻译内容的建议。
哈佛大学助理教授,研究自然语言处理和计算机翻译的 Andrew Rush 则不认为会是有人恶意捣乱,因为 Google 翻译内置的过滤器会捕捉和屏蔽这类型的修改。
他表示,奇怪翻译出现更有可能的原因和 2 年前 Google 翻译技术的改变有关, Google 翻译目前使用了一种被称为“神经机器翻译”的技术。
翻译软件的技术最早是利用词典和语法生成翻译,被称为基于规则的机器翻译(RBMT),使用上就是机器把每个单词查好,按简单的语法规则拼起来。随着统计学的发展,统计模型开始被应用在机器翻译上,通过对于两种不同语言的资料库进行统计分析来生成翻译结果。技术称为统计机器翻译(SMT),也是 1980 年代到 2000 年代之间翻译软件上最常用的方法。
2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的编码器-解码器结构。他们的研究成果可以说是神经机器翻译(NMT)的诞生。神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。三年后,Google 发布了自家的神经机器翻译系统 GNMT,也是采用编码器-解码器结构,但解决了 NMT 系统翻译计算成本高,难以处理生僻词等一些问题。
所谓 Google 的 GNMT 神经机器翻译,其实就是将要翻译的句子中的词汇逐个编码,形成一个列表,其中每个单元都包含了之前被读取到单词的含义,然后使用训练后的神经网络作为解码器,将单元逐个翻译成目标语言。
以汉语“知识就是力量”翻译成英文为例,神经机器翻译先按 “知”——“知识”——“知识就”等顺序对原句进行编码,一旦读取完整个句子,解码器就开始工作,逐个按列表单元生成英语句子中的一个词,最后整合成一句话。
GNMT 还加入了“注意(Attention)”技术,为了在每一步都生成翻译正确的词,解码器会重点注意与生成英语词最相关的汉语向量。在“知识就是力量”这句话中,知识和力量就是值得注意的单词。
而想要提高编码器和解码器的能力,就需要大量的训练。系统需要一种语言的大量文本来训练另一种语言的相应翻译能力,最终确保可以创建出两种语言之间对应的模型,这也是问题所在。
回到 Google 翻译会出现宗教话语的问题。研究自然语言处理和计算机翻译的 Rush 解释称,“当你让 GNMT 学会一个新语言的翻译时,它会受到训练,并竭尽所能去生产一些看起来像人类语言的东西。然而,如果它面对一些特殊的内容,只能展现一些和输入内容完全没有关系,但仍然流利通顺的东西。”
BBN Technologies 的高级科学家肖恩·科尔巴斯(Sean Colbath)从事机器翻译工作,他同意奇怪的输出可能是由于 Google 翻译的算法在混乱中寻找秩序。
他还指出,产生最奇怪结果的语言——索马里语,夏威夷语和毛利语。这些语言比英语或中文等更广泛使用的语言具有更小的翻译文本。因此他说,Google 可能会使用像圣经这样被翻译成多种语言的宗教文本来训练这些小语种的模型,从而解释了为什么会产生宗教内容的原因。
截止 2002 年,已经有 392 种语言的圣经全译本(即全本旧约、新约都有翻译的版本)。
Rush 也同意如果 Google 使用圣经来训练翻译模型,是可以解释一些奇怪的输出。事实上,索马里语的一些奇怪翻译的确类似于旧约中的特定段落。包括《民数记》在内的几节经文讨论了 sons of Gershon,《出埃及记》里也有对应的内容。
Google 发言人伯尔拒绝透露翻译的培训材料是否包括宗教文本,一些已经被发现的奇特翻译也在被网友发现后进行了修正。
有趣的是,Google 翻译似乎也知道自己奇怪的地方。
在使用索马里语翻译:“ why are the translations so weird(为什么翻译这么奇怪)”,Google 翻译给出了一个有趣的回答,“It is a great way to make it so much better(这是一个让它变得更好的好方法)”