2016云栖大会番外篇 蹩脚的机器翻译是这样
今天的北京 ,被雾霾笼罩,灿烂的阳光显得那么黯淡无光。每年北京一旦跨入深秋,每天只能与雾霾做伴,呼吸那具有特色的“空气”。在千里之外的杭州,那里正在上演一场场科技狂欢。由阿里巴巴主办的2016杭州云栖大会正如火如荼的进行,相比于这雾霾,技术显然正在受到无数人的热捧。
2016年10月14日 雾霾中的北四环
今年的云栖大会异常火爆,入场券可谓一票难求。据说有超过3万人参加报名,最远的报名者来自瑞典。而今年的大会时间也翻了一倍,由2天增加到4天时间,另外还有近2万平米的科技展厅,物联网、人工智能、智能物流、智慧金融等等最新科技都会一一展现。而包括马云、王坚等一大批大咖也会莅临,发表主题演讲。
在议程上,阿里集团旗下各个分支的主要技术官都会一一登场,包括阿里巴巴集团技术委员会主席王坚、阿里云首席科学家周靖人、蚂蚁金服首席技术官程立 、阿里巴巴集团首席技术官张建锋、高德技术副总裁田密等。虽然大咖众多,但是现场座位有限,所以在各大视频平台就主论坛会进行同步直播。
直播好呀,每个人既不用掏门票,也不是花费时间和精力去跑场。线上观看,简单方便,轻松自然。但是既然是同步直播,如何精准及时的为用户呈现文字是一个很大的挑战。本次两天的主论坛直播,采用机器翻译(或者叫人工智能翻译)。笔者守在电脑屏幕前,看了一上午。虽然精彩的分享吸引我,但是机器翻译的文字倒是逗得我哈哈大笑,先来一张。
在上面,我们可以看到本来“Fuxi Master”被机器翻译为“伏羲马术”。如果不整个观看这场演讲和理解上下文,那么肯定会被搞晕。现在,很多语言都会采用机器翻译,毕竟人工翻译太费时费力,虽然准确,但是速度慢。以谷歌、百度为代表的搜索引擎,大力发展机器翻译。最新的新闻是2016年9月27日,谷歌宣布发布神经机器翻译。据称,该机器翻译的准确度,可以匹敌真人,以致有网友大声疾呼“以后终于可以不用在学英语了”。虽然笔者没有试过,但是这种翻译主要适用于静态文本翻译,而不是动态真人语言翻译。把它拿到这两天的云栖大会上,不知道能否避免上述的情况。在笔者聆听阿里巴巴集团首席技术官张建锋的演讲中,更多的机器翻译错误随之涌上来。
上面是张建峰举的一个高尔夫球杆的例子,笔者不明白“生产这个高尔夫球杆”被机器翻译成了“生产这个寡妇干”。这是什么意思,至今没弄明白。
把传感器安置在球杆里,人们可以准确地知道挥杆的动作、频率等,结果机器把“挥杆”翻译成了“徽章”。难道是机器想要获胜,领取徽章吗?
深度学习是很流行,但是机器估计太赞赏自己了,翻译成“非常流流流行”,让人来强调的话,也应该是“非常流行非常流行非常流行”。
这机器又扯到“海南个体化”,越来越不懂。人们一直在争论机器翻译和人工翻译的差别。严复曾经表示,翻译的目标是“信、达、雅”。翻译有两个层次,一是直译,即按照字面的意思来翻译,其二是意译,让翻译更加顺口,符合真实的意思。不过,即使现在的机器翻译,凭借人工智能,依然远远达不到人类的要求。目前,最普通的机器翻译是一个一个词翻译出来,更先进的是看前后单词意思的最佳搭配。但是,就文章而言,机器翻译目前并不加入文化因素和社会习俗等,因此可以说机器翻译是“只见树木、不见森林”。而让机器翻译口语,那简直是难上加难,以中国来说,全国56个名族,还有各地不同的发音,有语气、声调等很多特殊因素。即使是在一个省,可能人们之间还是听不懂对方的话。因此,口语的机器翻译难度更加困难。
不过,在云计算和大数据时代,人工智能的翻译还是很有前途的。毕竟,深度学习让机器更加聪明。通过海量的数据输入,机器可以学习人类如何翻译文字和口语。不过,未来机器翻译会越来越厉害,但是人类翻译并不会消失。谷歌依靠搜索引擎和人工智能以及深度学习大力发展机器学习,但是韩国有一款翻译软件却梦想着依靠众包的方式来解决翻译问题。人们在翻易通上,既可以成为翻译家,也可以是求助者。如果你能成功为别人翻译英语,就会获得相应的金币。而一个人第一次求助发布文字时,会有2次的免费机会,而以后则需要花费相应的金币。
“做鱼丸”看来机器也想吃东西了。机器翻译速度是很快,但是准确性还需要大大改善。如果真用人类来进行同步翻译,不一定适用。笔者以为,未来机器翻译和人工翻译将会分化出不同的应用场景,机器翻译适用于快速、短时的翻译,而人类翻译则注重文化度高的翻译,比如图书出版等。