蔡徐坤的微信账号是什么(“你打篮球像蔡徐坤”:微信翻译这个bug是怎么回事?)

本文转载自微信公众号“硅星人”(ID:guixingren123),文|谱。

关于神经机器翻译,给个科普教育。

为了微信的一个bug,坤的粉丝几乎和腾讯势不两立。

上周末,微博、知乎、豆瓣、虎扑等社交网络上发布了一组“神翻译”在微信上的截图。有人输入“你打篮球像蔡徐坤”这样的句子,使用了微信的翻译功能,但是得到了一个完全错误的翻译:



其他遭受微信翻译调戏的男明星包括吴亦凡和谢广坤。





坤是目前中国娱乐圈的头号明星,他的粉丝绝对不是好惹的。



目前微信团队已经部分下线了翻译功能。根据四行人的实际测量,像“you are so”这样的句子和涉及“蔡徐坤”这样的词的句子已经不能翻译成中文了。

与此同时,官方账号@腾讯微信团队也在微博上宣布,正在紧急修复翻译功能。截至记者发稿时,相关声明仍无法通过微信正常翻译。

注意,微信官方提供了简短说明:

翻译引擎正在翻译一些没有经过训练的 非正式英语单词



在“蔡徐坤”之后,一些网民发现了更多会引发bug的词。比如微信翻译在大学英语缩写上的表现似乎很差。键入“你的学校是WHU”,但你不能翻译武汉大学,但你给出的结果是“你的学校很烂”。



没多久,学校的句型就翻译不出来了。

硅星认为,微信应该更详细的告诉我们:为什么会出现这个bug,是什么因素造成的?

一方面,微信翻译背后的技术真的很复杂。解释一下有助于用户理解它的工作原理,明白这个翻译结果背后可能有非常复杂的技术原因。

另一方面,你把“你就是这样”这句话关掉,学校的缩写就会出现;关闭学校缩写后,会发现更多能触发bug的词。找到就关一次?这样会伤害正常使用翻译功能的用户的体验,长远来看也不是解决之道。

可惜微信表示不会在微博上多做评论(可能是不想再惹恼坤迷了)。)同时,中国互联网上对此事也没有可靠的技术答案。甚至在知乎上,用户也在相关话题下分享自己发现的bug截图,没有人解释原因。

既然这样,为什么不让四星人试试呢?

我们采访了多位机器学习专家,在接下来的几页中,我们1)解释了微信翻译中使用了什么技术;2)再试着回答一遍“你打篮球像蔡徐坤”这句话,为什么在微信翻译中会翻译错?



微信翻译用的是什么技术?

经过多方了解,司星人确信微信的英汉翻译系统是基于机器学习领域流行的“神经机器翻译”(简称NMT)技术,由微信AI团队自主研发。

从外行人的角度来看,NMT在翻译一个句子时做了这些事情:

第一步:NMT在一定程度上模仿人脑的思维方式,根据一个词在整句(可以是长句)中的上下文,为其建立神经网络模型,形成语义表征。

例如,英语中的单词“dog”可以理解为NMT在其“大脑”中形成了狗的印象。

第二步:根据句子甚至段落中的上下文,将模型重新翻译成另一种语言。

比如dog翻译成法语就是“Le Chien”;但如果语境是“一只狗生了一只小狗”,那么这只狗就会被翻译成否定的“la chienne”。



(NMT并没有真正在大脑中形成狗的视觉印象。事实上,整个过程与图像完全无关。这种所谓的“印象”是由一系列矢量表达的。狗的例子来自微软翻译器[1])

NMT的主要优势是对长句(甚至是段落)有很好的翻译能力,阅读时上下文连贯程度接近人工翻译。NMT问世后,逐渐被微软、谷歌、百度、腾讯等大公司的翻译产品采用。

“机器翻转技术一直在不断迭代更新。以前是基于规则,过去十年主要是基于统计。现在我们开始使用神经网络。神经机器翻译是目前机器翻译领域的一个热点技术。我们大部分大型语言的翻译都是基于这种技术,”美国一家顶级科技公司研究部门的高级研究员王夏*告诉《硅星》。

“在倒装技术发展的每个阶段,研究人员都会遇到一些问题。NMT也有一些问题,例如,整个过程的可解释性很低,”他说。

在具体案例层面,为什么一个NMT系统会把一句abcde翻译成ABCDE?目前,研究者很难解释清楚翻译过程。



这句话为什么会转错?

如果NMT错了,会发生什么?

事实上,错误是否严重是由人决定的。在机器眼里没有对错,选出的答案是机器认为概率最高或者可能性最大的答案,因为一切都是按照模型和算法运行的。

只有接受了这一点,你才能明白这句话为什么是错的。

接下来,进入正题。

可能的原因1:训练集噪音

《硅星》采访的大部分机器学习专家都投了这个理由。

形象地说,噪音就是训练翻译系统的数据集中“不正确”和“脏”的数据。

训练一个优秀的NMT系统需要大量高质量的 平行语料库数据——“高质量”指的是准确翻译,“平行语料库”指的是英汉句子,“我爱你=我爱你”等等。

我们去哪里找这些数据?英汉词典是一个来源。另外,最流行的方式是从全网的大量数据中抓取高质量的平行语料库。

“你打篮球像蔡徐坤”已经被翻译成“你打篮球打得真好”。噪音是从哪里来的?硅人的发现有两种可能性:

例如,互联网上已经存在大量“蔡徐坤=好”的语料库。这些语料库在爬取中被微信翻译用作平行语料库。但实际上属于“噪音”,因为在翻译的语境中,关联无法建立,准确性无法保证。微信未来可能会在类似领域加强去噪。

创办了一家机器学习公司的陈晗*指出,在训练过程中,微信翻译团队成员可能会使用生成攻击性攻击的方法,手动添加类似的噪音,并在训练过程中主动纠正类似的翻译结果,最终干扰了翻译结果——这是一种可能的情况,动机我们不做推测。



一个用噪声干扰计算机视觉图像识别的例子:人类无法识别的图片,被深度神经网络识别为不同的物体。例子与本文主题无关,仅供参考。

在存在噪声等异常情况下,系统仍能正常训练和工作并给出高质量的翻译结果——这种能力在计算机科学中被称为“鲁棒性”。

王夏指出,鲁棒性应该得到NMT和未来机器翻译技术的提高和重视。

可能的原因2:多余的单词

一种可能的情况是“蔡徐坤”这个词从未出现在微信用于翻译训练的数据集中。

当NMT遇到集合之外的单词时,它可以分解来寻找集合之内的单词。这个拆卸过程也是随机的。比如可能被拆解成caix ukun,得到的依然是多余设置的单词。

外来词翻译不好很正常。没看过就不翻,有偏差也在情理之中。

可能的原因3:域不匹配

“另一种可能的情况是域名不匹配,”王夏说,并指出这不一定是一个具体的情况。

在这个具体案例中,篮球出现在句子中,而微信翻译的训练数据集可能不在篮球领域,或者很少与篮球相关。一个不匹配的字段,再加上句子中一个额外设置的单词,共同导致翻译结果难以正确。

这个解释行得通。比如,商业是大部分微信用户使用翻译的原因,所以微信在训练NMT时可能会使用贸易领域的数据集;篮球不是微信翻译用户的主要场景,所以可能训练中没有篮球数据集。

出了问题不能怪它,因为集合外的词和域不匹配。怎么可能是你没学过的东西?



微信AI官方网站

可能原因四:陌生词语+无法引入常识

微信账号是什么

这个原因也是NMT的工作原理造成的。

NMT非常擅长翻译长句、段落甚至整篇文章。由于它的机制,一个词的翻译可以符合语境的上下文。

但在短句中,不一定管用——尤其是当句子一点都不通顺的时候。

可能因为在“你打篮球像蔡徐坤”这句话里,蔡徐坤是一个很奇怪的词。它不出现在任何一本英语词典中,而且似乎与句子的上下文无关。



微信翻译的培训可能发生在坤成为NBA中国新年大使之前。

人类在翻译时,可以参考已有的常识和知识,不会翻译也可以查资料。NMT不能这么做。当它工作时,它没有一个共同的知识库可以参考。

而且,也不是说微信做不好——现在我们用同一句话测试Google Translate,结果并不完全令人满意。



“这个问题(不能引入常识)不仅体现在翻译任务上,还包括阅读理解、问答等任务。如何改善这一点是一个非常有趣的方向,每个人都还在探索,”王夏说。

那么,微信做错了吗?[/s2/]

如果出现上述情况,就不可避免地会导致翻译错误,因为这就是NMT的作品。即使这不会发生在微信上,也会发生在谷歌翻译或任何其他基于NMT的翻译产品上。从这个角度来说,微信这个产品本身没有任何问题。

但是微信团队也不是完全无辜的。因为除了技术,bug也可能是流程控制上的问题。

在一个9亿用户的国民App中,任何功能的开发都要经过认真的论证,上线前都要有严格的测试,尽量保证万无一失。但微信前工程师曾透露,至少微信翻译上线时不是这样。

这时候,智湖的工程师这样回答:





腾讯/微信已经不是第一次出现这个问题了。

去年腾讯AI负责博鳌亚洲论坛同声传译,直接带来了基于seq2seq的机器翻译系统。先是把“一带一路”翻译成“一路一带”和“道路和传送带”,然后就干脆罢工了。



“数据量大,活的糙,敢做。”

这是陈晗对这个微信翻译bug的评价。

一位不愿透露姓名的范昆在接受四星人采访时表示,不希望看到有人通过技术手段纵容针对艺人的网络暴力。

“艺人是无辜的,这样的翻译本身就会对艺人产生负面影响。但网友的群体嘲讽可能会给艺人带来二次心理伤害,”她说。“这次微信官方的回应很快,也很好。我希望微信是无害的,希望所有的国民app和社交媒体都有一个基本的道德底线。”

所以,



*王夏和陈晗是化名。

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友