xml地图|网站地图|网站标签 [设为首页] [加入收藏]

您的位置:新莆京娛樂 > 爱情小说 > 人工智能,作者侯世达疯狂吐槽谷歌翻译

人工智能,作者侯世达疯狂吐槽谷歌翻译

发布时间:2019-12-03 03:14编辑:爱情小说浏览(59)

    原标题:《集异璧》作者侯世达疯狂吐槽谷歌翻译:AI让译者失业?还早着呢

    春节假期已经过去几天了,不知道大家有没有吃好玩好?朋友圈这几天几乎被美食、萌娃视频和景点照片刷屏了,让人好生羡慕。

    机器能在完全不理解语言的情况下拿出高品质的翻译作品吗?本文来自微信公众号:神经现实(ID:neureality),作者:侯世达(DOUGLAS HOFSTADTER,美国著名认知科学家、比较文学家、翻译家,印第安纳大学认知科学和比较文学教授、著有《哥德尔、艾舍尔、巴赫:集异璧之大成》,该书获得普利策奖和美国国家图书奖),原文发表于《 THE ATLANTIC》。

    不知道大家注意到没有,上面四条朋友圈消息,有一条是在俄罗斯发出来的。实际上,在这个传统上要回乡团聚的日子里,也有相当一部分人选择全家出国旅游。根据中国旅行研究院与携程旅行统计,今年春节预计中国出境游人数将达到650万人次,中国人在春节假日出境旅游几乎可以“席卷全球”。

    (salsa sessions),我的朋友弗兰克带了一个丹麦朋友来。我知道弗兰克的丹麦语讲得很好,因为他的母亲是丹麦人,他小时候曾在丹麦生活过。而他带来的那个朋友,跟所有斯堪的纳维亚人一样,能讲一口流利的英语。然而,令我惊讶的是,在晚上闲聊的过程中,他们居然习惯性地用“谷歌翻译”交换信息。弗兰克用英文写下文字,然后用“谷歌翻译”转译成丹麦语;而他的朋友则用丹麦语写下文字,然后用“谷歌翻译”转译成英语。

    但出国旅游就有个问题:如何在当地交流?这可不是光学会几句英语就能解决的问题,如果你要去不以英语为母语的国家,可能就麻烦了,不是每个当地人都会讲英语。这时候,手机上的翻译软件就有用处。

    这太奇怪了!为什么会讲对方语言的两个聪明人要用这种方式沟通呢?我对机器翻译的体验总是让我对它不够信任。但这两个朋友显然没有我的那种疑虑。实际上,很多受过良好教育的人对于机器翻译都抱有相当大的热情,很少对它产生质疑。这让我颇感困惑。

    目前出国旅游比较流行的是谷歌翻译。对于中国大陆用户来说,近期比较重要的更新是在去年的3月29日,谷歌更新后的翻译App可以在中国大陆地区无障碍使用,经过一波宣传,用的人越来越多。在知乎上“出国旅游有什么好的便携式翻译机或App可用?”这一问题中,得赞最多的回答首推谷歌翻译App。

    作为一个语言爱好者和翻译热爱者,作为一个认知科学家和一个人类精妙心智的终身敬畏者,几十年来我一直在关注机器翻译的进展。当我最初在1970年代对它产生兴趣时,我读过一封信,是数学家、机器翻译早期倡议者沃伦·韦弗(Warren Weaver)于1947年写给控制论专家诺伯特·维纳(Norbert Wiener)的。在信中,韦弗写了一句很有意思的话,今天仍为众人所熟知:

    知乎上“出国旅游有什么好的便携式翻译机或App可用?”这一问题中,得赞最多的回答

    几年后,他表达了不同的看法:“没有一个理性的人会认为,机器翻译能够做到‘信、雅、达’。普希金不需要为此感到担忧。” 哈!我曾用了我人生中整整一年的时间,将亚历山大·普希金的著名诗体小说《叶甫盖尼·奥涅金》翻译成我的母语(也即是,把这一伟大的俄罗斯文学作品重新翻译成英文诗体小说),这真是一段令我难忘的经历。我发现维纳的新观点揭示了语言朴素的本质,更接近于语言的真相。尽管如此,他在1947年提出的“翻译即解码”的观点还是成为了机器翻译领域的一种信仰。

    但机器翻译一向被专业译员鄙视,即使谷歌为翻译加持神经网络技术也没有改变很多人类译员的看法。最近美国《大西洋月刊》上的一篇文章中,作者道格拉斯·霍夫施塔特对谷歌翻译diss了一把。他通过英语、法语、德语和中文四种语言翻译比对,论证出一个结果:谷歌翻译即使应用人工智能技术,也没有真正理解语言。

    从那以后,“翻译机器”逐渐有了发展。直到最近,对所谓“深度神经网络”的使用,让有些观察家(参见纪德·刘易斯-克劳斯(Gideon Lewis-Kraus)在《纽约时报杂志》上发表的《The Great AI Awakening》,以及雷恩·格林(Lane Greene)在《经济学人》上发表的《Machine Translation: Beyond Babel》)宣称,人类译者将成为濒危物种。照此发展下去,用不了几年,人类译者要做的事情就不是创造新的文本了,而是对文本进行修修补补和质量控制。

    他在文章中举了中文翻译英文的例子,文本是杨绛的《我们仨》中的一段。

    果真如此的话,这将对我的精神生活造成巨大的冲击。虽然我完全理解人们对机器翻译的痴迷,但我肯定属于最不希望人类译者被无情的机器所取代的那类人。事实上,机器翻译令我感到恐惧和厌恶。在我看来,翻译是一种难以置信的精妙艺术,它需要译者有丰富的人生阅历和创造性的想象力。

    原文:

    每当我读到文章宣称,人类译者作为一个群体将很快向新技术的快刀利剑俯首称臣时,我总有一种想要亲自检验这种判断的冲动,这一方面是因为,我感到技术替代的魔魇可能近在眼前;另一方面是因为,我由衷希望自己能够确证,危险并非迫在眉睫;最后,出于我一贯的信念,我想要挑战那些夸大其词的人工智能威胁论。

    锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。他仍兼管研究生。

    人工神经网络并不是一项新奇的技术。最近,在谷歌内部被称为“谷歌大脑”(Google Brain)的部门采用了这项技术,同时,又用“深度学习”增强了它的能力。我阅读了相关文献,了解了被称为革命性翻译机器的软件机理,然后,我决定亲自测试最新版本的“谷歌翻译”。它真的是一个颠覆者吗,就像“深蓝”和“AlphaGo”之于象棋和围棋那样?

    毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。

    我发现,虽然“谷歌翻译”的老版本可以处理多种语言,但新的深度学习版本目前只能处理9种语言。(最新情况是,它可以处理96种了。)其中,我只打算测试英语、法语、德语和中文。

    事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说:

    在展现测试结果之前,我应当指出,“深度”这一形容词的含义是模糊不清的。当人们听说谷歌买了一家名叫DeepMind的公司,其产品使用了用“深度学习”技术增强的“深度神经网络”时,下意识中会将“深度”一词理解为“深刻”,进而理解为“强大”、“颖悟”、“聪明”。然而,这里的“深度”仅仅是指这样一个事实:新的神经网络比老的神经网络拥有更多的层次,比如说,前者有12层,后者只有2、3层。那么,这种层级数量的差异是否意味着,神经网络必然会更聪明呢?并非如此,这不过是语义上的误解。

    他以为我要做“南书房行走”了。这件事不是好做的,不求有功,但求无过。

    “谷歌翻译”的宣传声势浩大,但我对它却持有谨慎态度。尽管对它并无好感,但我也意识到它的确带来了一些惊喜。它对地球上的每个人都是免费的,能够将差不多100种语言转译成任何一种其他语言。这真是一件了不起的成就。如果我可以骄傲地称自己是“三种全会”(pi-lingual)的话[1](如果有人问我“你会说几种语言”,我会很愉快地回答,大概会3种语言),那么“谷歌翻译”得有多骄傲啊,毕竟,它可以把自己称为“百种全会”(bai-lingual)(“百”在中文里是指数字“100”)。对于只会3种语言的人来讲,会100种语言简直难以想象。并且,如果我将一张语言A的文字复制粘贴,放进“谷歌翻译”,不消几秒钟,它就能被翻译成语言B。在数种语言之间自由转换,这种效果在任何地方任何屏幕上都能实现。

    谷歌翻译版本:

    “谷歌翻译”和相关技术的实用性是毋庸置疑的,总体而言也是很好的工具。但它在技术方法上还是极度欠缺一种东西,一言以蔽之:理解力。机器翻译绝对做不到理解语言。相反,它的方法只是试图去“解码”——而不去考虑究竟什么是理解和意义。那么,是否不需要理解就能做好翻译呢?某种事物——人类或机器——能在完全不理解语言的情况下拿出高品质的翻译作品吗?为了回答这个问题,现在我要谈及我所做过的几个实验。

    After a year of work at Tsinghua,he was transferred to the Mao Translating Committee to live in the city and back to school on weekends。He is still a graduate student。

    01

    The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian。Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades。

    In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.

    On the day of the event,after dinner,an old friend hired a rickshaw from the city to congratulate。Guest to go,the book of fear in the book said to me:

    在他们的房间里,每样东西都是成对出现的。有他的车,就有她的车;有他的毛巾,就有她的毛巾;有他的书房,就有她的书房。

    He thought I had to do“South study walking。”This is not a good thing to do,not for meritorious service,but for nothing。

    (以及在其他拉丁语系中),“他”和“她”这样的性别词汇不是由事物的所有者来界定的,而是由事物本身来界定的[2]。于是,“谷歌翻译”呈现给我们的结果就是:

    作者翻译版本:

    Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

    After Zhongshu had worked at Tsinghua University for a year,he was transferred to the committee that was translating selected works of Chairman Mao。He lived in the city,but each weekend he would return to school。He also was still supervising his graduate students。

    在他们的房间里,每样东西都是成对出现的。有他的车,就有他的车;有她的毛巾,就有她的毛巾;有他的书房,就有他们。

    The leader of the translation committee of Mao’s works was Comrade Xu Yongying,and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate,Comrade Qiao Guanhua。

    这样的结果在我预料之中。它没能意识到,我的这段话描述的是一对夫妻,强调了丈夫(他)拥有的每一样东西,他的妻子(她)也拥有。例如,深度学习引擎用了“sa”(他的)这个词来表示“他的车”和“她的车”,因此,你无法知道车主的性别。类似地,它还用了无性别的复数词“ses”来表示“他的毛巾”和“她的毛巾”。至于最后提到的两个书房(他的和她的),它则干脆省掉了“hers”中的“s”,认为“s”在这里表示复数,意指“他们”(“les siennes”)[3]

    On the day this appointment was decided,after dinner,an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu。After our guest had left,Zhongshu turned to me uneasily and said:

    Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.[4]

    “He thought I was going to become a‘South Study special aide。’This kind of work is not easy。You can’t hope for glory;all you can hope for is to do it without errors。”

    “sa voiture à elle”表示“她的车”,而“sa voiture à lui”只能被理解为“他的车”。这时,我猜想“谷歌翻译”应该很容易把我的法文版本准确翻回到英文,但我完全想错了。下面是它呈现给我的结果:

    作者在这里指出了谷歌版本不少问题:

    At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

    翻译中一次也没提到过人名“锺书”,而是分别翻译成了“he”、“the book”和“the book of fear in the book”。很明显,谷歌翻译没有理解出这是个人名;

    这都什么鬼啊?!即便输入的语句专门强调了物主的性别,翻译机器还是忽略了这一点,把所有性别都翻成了男性。

    原文是“他仍兼管研究生”,但翻译变成了“He is still a graduate student”;

    我们人类都知道,什么是夫妻、房屋、个人物品、骄傲、竞争、嫉妒、隐私,以及很多其他似乎难以理解的怪癖,比如,结了婚的夫妻,各自的毛巾也要分别刺上“他的”和“她的”字样。而“谷歌翻译”却不明就里,或者准确地说,它暂时还不明就里。它只熟悉由字母所组成的字符串,只知道以超快的速度处理一段段文字,而不知道如何思考、想象、记忆和理解这些文字。它甚至不知道文字指涉了事物。我可以毫不犹豫地说,理论上讲,计算机程序本可以理解语言的用途,可以拥有思想、记忆和经验,可以应用它们。

    原文的“徐永煐”被翻译成了“Xu Yongjian”。

    (one swallow does not thirst quench.)

    “客去后”被翻译成了“guest to go”。

    事实上,“one swallow does not thirst quench”[也意指“一燕不成夏”(one swallow does not a summer make)]这句话是我生造的,我忍不住想要试试,“谷歌翻译”会怎么翻呢?反馈给我的结果如下:

    “南书房行走”中的“行走“被翻译成“walking”,这也是谷歌没有理解原词含义。

    “Une hirondelle n’aspire pas la soif.”

    不光是这一段,作者从他当下看的书中选择了好多个段落进行测试,几乎每一段都会出现形式不一、大小各异的翻译错误,其中也包括上文所述的无法理解的句子。

    这是一个符合语法的法文句子,但它的意思很费解。首先,它提到了一种鸟(“une hirondelle”——一种燕子)(n’aspire pas),最终的意思就是说,这种既不吸气又不吮吸的东西口渴了(la soif)。显然,“谷歌翻译”没有理解我的意思,它只是生成了一堆胡言乱语。“Il sortait simplement avec un tas de taureau.”“He just went out with a pile of bulls.”(他只是说了一堆胡话。)“Il vient de sortir avec un tas de taureaux.”[5]

    为什么谷歌翻译在上面的例子中还是不尽如人意?在作者看来,谷歌翻译只是类似于处理密码一样处理语句,而没有像人类一样“阅读“语句,它处理的符号和现实世界是分开的,没有现实体验,也就谈不上理解。

    02

    谷歌翻译不尽如人意,但它真的完全没有用吗?

    (Karl Sigmund)写的《Sie nannten sich der Wiener Kreis》(人们把他们称为“维也纳学派”)一书。它讲述了维也纳的一群理想主义知识分子在1920年代和1930年代的故事,这群人对20世纪的哲学和科学产生了巨大影响。我选择了书中的一小段文字来考验“谷歌翻译”。我将先呈现德语原文,然后给出我自己的翻译版本,最后给出“谷歌翻译”的版本。(顺便提一句,有两个母语是德语的人核对了我的翻译,包括卡尔·西格蒙德,因此,我认为你大可相信我的翻译是准确的。)

    既然谷歌翻译在前面的例子中如此糟糕,那对于出国的游客来说,谷歌翻译还有用吗?

    西格蒙德:

    前面diss谷歌翻译的作者霍夫施塔特指出,谷歌翻译目前还不能做到准确理解语句;但霍夫施塔特只分析了一类文本,那就是文学作品类。谷歌翻译面对的可绝不仅仅是想了解文学作品的人,对于不同的需求,它的表现会不会有所变化?换句话说,对于出国游客来说,谷歌翻译的表现会不会更好一点?做一个简单测试也许能看出来。

    Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

    新浪科技随机挑选10个“出国常见语句”为样本,输入到iOS版谷歌翻译App中测试(这里的测试语句除了常见的问路类型,还有相对比较复杂的),然后将这10句原文和翻译分成三类,分别是“有歧义”、“不常用”和“正确”类型,结果如下:

    侯世达:

    这里要注意的是,这里分类的依据是可理解的程度,而不是语法。这就意味着只要能够被理解且不出现歧义,即使是有明显语法错误的,也可以被分到“不常用”类别,比如“How to get to the subway station”这种有语法错误的句子,但还能通过单词理解,就分到“不常用”类别中。

    After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.

    战败之后,泛德国主义在当时的教职员工中是主流倾向,很多持有这种倾向的教授认为,自己完全有责任让高等教育机构免受“政治上不受欢迎的人”的影响。最有可能被开除的是青年学者,他们还没有获得在大学授课的教职。对于女性学者而言,她们在大学里更是没有立足之地,这是再明显不过的事实了。

    After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

    战败之后,很多德国籍的教授,同时也是教职员工中的多数派,认为自己有责任让大学避免“奇数”;在获得资格之前,青年科学家是最容易受到影响的。总之,科学家没有产生质疑,几乎没有了。

    但即使按照这样不太严格的标准来分类,可理解与有误解的比例还是6:4,以下就来说说四个“有歧义”句子可能出现的误解:

    首先,我注意到了“odd”这个词。它对应了德文中的“die ‘ungeraden’”,意思是“政治上不受欢迎的人”。然而,“谷歌翻译”有理由——出于非常简单的统计学上的理由——选择“odd”这个词。也即是说,在其上百种语言的数据库中,“ungerade”这个词总是被译作“奇数”(odd)。尽管机器本身并不知道为什么会这么翻,但我可以告诉你原因何在。

    “我要退这张票”翻译成“I want to withdraw this ticket”,可能会被误解成“我要拿走这张票”,因为“withdraw”有“拿走”的意思,而没有“退票”的含义;

    这是因为“ungerade”的意思——字面意思是“不平的”或“不均匀的”——几乎总是意指“不能被2除尽”。而我的翻译版本有意选择了“undesirables”一词,从而使得对“Ungeraden”一词的翻译与统计概率无关,而是来自于我对语境的理解——来自于我注意到文字中没有被清晰表达出来的含义,而且“ungerade”的这种含义绝不可能在我自己的德语词典中找到。

    “我想把这张50美元换开”中的“换开”不能翻译成“swap”,因为这个英语单词不能用于“换零钱”这个含义中;

    让我们再来看看“Habilitation”这个德语词汇,它意指大学的教职,相当于终身教授。英文里也有同样词根的词“habilitation”,不过它很少被使用,自然也不会让人联想到终身教授或者类似的事物。所以,我需要简单解释而不只是引用这个含义模糊的词。机器翻译不可能真正理解以英文为母语的读者,“谷歌翻译”当然也做不到这一点,因为它不能模仿读者的知识。

    “能给我张退税表吗?”的谷歌翻译“Can you give me a tax return?”,把“表格”这个含义在翻译中丢失了,而且“tax return”是“报税”的意思,而不是“退税”的意思;

    不过,最后两句话才真正表明了,为什么理解对于翻译而言至关重要。德语名词“Wissenschaftler”由15个字母组成,意思是“科学家”或“学者”。(我选择了后者,因为在文中的语境下,它意指一般意义上的知识分子,而“谷歌翻译”则没能理解这一细微之处。)另一个与此相关的词“Wissenschaftlerin”由17个字母组成,我们可以在最后一句话中看到其复数形式“Wissenschaftlerinnen”,它是一个指代了性别的德语名词。单数名词在语法上指代男性,意指男性学者,复数名词指代女性,只适用于女性学者。我自己的翻译版本用了“女性学者”(female scholar)来理解这层意思。而“谷歌翻译”并没有理解增加了“in”这个后缀的阴性词是最后这句话的核心意义所在。由于它没能意识到“女性”这层意思,就只能再次使用“科学家”这个词,因此没有理解整句话的意思。就像前面的法语例子一样,“谷歌翻译”完全不理解,这段德文的中心意思是要比较男性学者和女性学者的不同境况。

    “这有免税店吗?”被谷歌翻译错译了“Is this duty-free shop?”,这是一个只要稍微学过英语的人都会看出来的错误。

    除开这个错误,最后一句话的余下部分也是翻得一塌糊涂。先看前半部分。“总之,科学家没有产生质疑”(scientists did not question anyway)(Wissenschaftlerinnen kamen sowieso nicht in frage)的正确翻译吗?显然,它没能呈现出原文的意思——甚至完全挨不上边。它只是随意地将德语词汇翻成了英语词汇。这样的结果可以被贴上“翻译”的标签吗?

    从随机的测试结果看来,谷歌翻译的准确度离满足游客的需要还是差了一些距离。

    这个句子的后半部分同样是错译的。最后6个德语词汇的字面意思是,“没有更多的共识了”,或者更直白一点,“这就是人们达成的最大共识了”。然而,“谷歌翻译”却将这句意思很明确的话翻成了“几乎没有了”。作为人类的我们可能会问“几乎没有什么了?”但翻译机器是不会关心这个问题的。“谷歌翻译”对于语境完全不理解,因此它甚至不能回答看上去很简单的问题。翻译引擎不能想象数量的大小或者事物的数量。

    为什么有了人工智能加持,谷歌翻译还是不够好?

    03

    前文中说过,谷歌近期比较重要的更新是可以在中国大陆地区无障碍使用。但实际上,谷歌在前年有一次更重要的更新,那就是将翻译系统从原来的“基于词组的机器翻译”,也就是将神经网络技术引入到机器翻译中。谷歌宣称,经过此次更新,翻译结果更加通顺,可用性更强。

    人类有着丰富的人生阅历,也能赋予语言以意义,因此很难察觉到“谷歌翻译”呈现在屏幕上的文字是漏洞百出的。人们几乎会不假思索地认为,一款能如此流畅地翻译语言的软件一定能够理解文字的含义。这种典型的幻觉与人工智能有关,被称为“伊莉莎效应”(ELIZA effect),它迷幻了人们的双眼,让人们误以为机器可以理解英语。时光回到1960年代,研究人员设计了一个被称为“伊莉莎”的虚假的语言机器人,并把它假扮成了一个精神治疗师。“伊莉莎”让每一个与它打过交道的人产生了一种奇怪的感觉:它能够深刻理解人们心灵深处的感受。

    按照百科上的说法,神经网络“是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型”。这个定义非专业人士不太好理解,没关系,只要知道神经网络是实现人工智能的基础性技术就好了。

    几十年来,颇有见识的人们——甚至一些人工智能的研究人员——也陷入了“伊莉莎效应”。为了确保我的读者避开这一陷阱,让我从前面的段落中引用一些词组——也即是,“‘谷歌翻译’没有理解能力”,“它不能意识到”,“‘谷歌翻译’没有最起码的想法”。然而悖论之处在于,这些词组一直在说“谷歌翻译”欠缺理解力,而这同时又意味着,它至少在有些时候应该具备理解一个单词、一个词组或一句话的含义或所指事物的能力。但事实并非如此。“谷歌翻译”绕开或回避了对语言的理解。

    人工智能是这几年的大热新闻关键词和最流行的技术,连今年的春节晚会上都展示了人工智能技术加持的自动驾驶汽车。但新闻中常常被讲的神乎其神的人工智能怎么在语言翻译这方面都做不好?前文中那个diss谷歌翻译的作者霍夫施塔特给了我们一个解释。

    对我而言,“翻译”这个词散发着神秘而振奋的光芒。它代表了一种深刻的人类艺术形式,能够优雅地将用语言A表达的清晰思想转化成用语言B表达的清晰思想。而这种转化的桥梁不仅仅要确保清晰性,还要呈现出原作者的品味、癖好和写作风格。

    霍夫施塔特认为,很多人其实对人工智能的期待过高,从而“脑补过度”,这在心理学上被称为“Eliza效应”,大概意思是说人会过度解读机器的结果。这里的“Eliza”是上个世纪60年代的早期人工智能项目,能通过脚本理解简单的自然语言,并能进行类似于人类的互动,与它互动过的许多人都认为Eliza确实了解他们内心的感觉。在霍夫施塔特看来,即使是一些人工智能领域的研究者,也难免落入“Eliza”效应的陷阱中。

    不消说,这些光环大多是无意识的。只有当这种光环在我脑海中被成功激发出来时,我才会试图去用另一种语言将它表达出来——让它“喷薄而出”。我希望能用语言B将那种光环表达出来。

    霍夫施塔特认为,人类的翻译是一个“阅读-内化-表达”的过程,人类读到文本之后,会联想到相关的现实场景,然后基于场景给出另一种语言对于这种场景的表达。但谷歌翻译只是一个“解码”过程,即使是人工智能加持,谷歌翻译也没有真正理解文本,它只是将原文看成被加密的译文,只要解码即可翻译。这样的过程缺乏现实体验,谈不上理解,当然就难免出现错误。

    简而言之,我并不是简单地将语言A中的单词和词组转化成语言B中的单词和词组,而是要在无意识中将图像、场景、思想呈现出来,发掘出我自己的人生经历(或者读过的书籍、看过的电影、朋友的教诲)

    有人也许会问,神经网络技术就不能模仿人类思维来翻译吗?霍夫施塔特也给出了自己的答案,他认为这类机器翻译目前还没有超越单词和短语层面,这样的人工智能在“读”到文本之后,只是联想到对应语言的单词,而不是联想到现实场景,尽管用了复杂的统计词语聚类算法,但这和人类的翻译思维还是不一样。这种技术加持下的谷歌翻译,虽然能将原文和译文的词语对应起来,还有一定能力组织成句子,但还是难以理解。

    事实上,跟“谷歌翻译”2、3秒就能翻出一个页面的速度相比,情况的确如此——但这正是严肃的人类译者应该做的事情。每当我听到那个令人亢奋的术语“深度心智”(deep mind)时,我所想到的正是上述场景。

    霍夫施塔特的说法在新浪科技的测试中也得到验证。此前的出国常用语句翻译测试,从“退票”翻译成“withdraw ticket”和“换开”翻译成“swap”这两个例子中,就能看出谷歌翻译目前还停留在词对词或者短语对短语的层面,而不是联想到实际场景,即使按照正确的语法组织起来,也难以让人理解。借用一位翻译学教授的话:“你每一个字看得懂,但连起来就不是人说的话。”

    04

    由此看出,谷歌翻译距离完全无障碍的应用还有一定距离。在这种情况下,出国的游客除了在手机装上几个翻译App之外,最好还是多学点常用英语,再不济也练一练画图技能,以备不时之需。当然,人工智能的研究者还是要更深入的探究人类思维,并且开发出一款更好的翻译App;如果真有这么一天,专业译员也会对机器肃然起敬了。

    现在,我要转向对中文翻译的测试,这对深度学习软件的挑战比前两种欧洲语言要大得多。我的测试材料来自令人温暖的回忆录《我们仨》,作者是中国剧作家和翻译家杨绛,她刚去世没几年,享年104岁。该书讲述了她、她的丈夫钱钟书(也是一个小说家和翻译家)(已经过母语为中文的人的审校):

    杨绛:

    After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

    The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

    On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

    “He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”

    谷歌翻译:

    After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

    The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

    On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

    He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.

    我将简要指出一些谬误之处。

    首先,“谷歌翻译”完全没有提到“钟书”这个名字,而它在原文中出现过3次。翻译机器首先用了代词“他”,然后又用了“这本书”(the book)(the book of fear in the book)

    第四处谬误是,“永煐”这个名字被译成了“Yongjian”。

    第六处谬误是,最后一句话完全不知所云。好吧,这六处错误已经能让“谷歌翻译”够喝一壶的了,不过我们完全可以不用在意这些错误。现在,我将集中探讨一个令人费解的词组——最后一段话中由5个单词组成的、用引号标注的词组(“南书房行走”)。如果逐字翻译,这个词组可以被译作“south book room go walk”,但这种大杂烩显然是难以理解的,尤其是考虑到文中的语境,它肯定是一个名词。“谷歌翻译”给出的结果是“South study walking”,但仍然词不达意。

    我得承认,刚开始我也不知道这个中文词组是什么意思。尽管从字面上看它的意思似乎是,在某栋建筑的南边学习的时候移动自己的脚步。我知道,这种理解肯定是错的,不符合语境。为了翻译它,我不得不去了解我并不太熟悉的中国文化。我该寻求谁的帮助呢?谷歌啊!(但不是“谷歌翻译”。)我将这几个中文单词连同引号输入谷歌搜索框,然后让引擎自己去搜索。很快,一堆中文网页跳了出来,我痛苦地在前两个网页呈现的中文语句中搜寻,想要搞明白这个词组究竟是什么意思。

    (1644~1911年)(在皇宫的南书房)起草漂亮的官方文件。“行走”这个词实际上意指“辅助”。因此,根据谷歌搜索提供的信息,我把这个词组翻译成了“South Study special aide”。显然,“谷歌翻译”没能像我一样好好利用谷歌搜索,这真是太糟糕不过了,不是吗?尽管“谷歌翻译”能在瞬间翻出这个词组,但它不能理解网页里的中文内容。我把我查看的中文网页信息输入“谷歌翻译”,它很快就呈现了如下结果:

    “South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking.” Because of the close to the emperor, the emperor’s decision to have a certain influence. Yongzheng later set up “military aircraft,” the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

    The nan-shufang-xingzou(“South Study special aide”) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor’s current intellectual academician. The group of academicians who worked in the imperial palace’s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor’s beck and call; that is why this role was called “South Study special aide.” The South Study aide, being so close to the emperor, was clearly in a position to influence the latter’s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor’s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.

    (尽管与原文的意思仍有偏差或者完全误解了原文)。一两段翻得不错的完整语句可能会让人产生幻觉:“谷歌翻译”知道自己在做什么,能够理解它所“阅读”的文字。在这种情况下,它似乎给人留下了深刻的印象——它几乎能达到人类的水平!

    这样的赞美当然要归功于它的发明者和他们艰苦的工作。但与此同时,不要忘了,“谷歌翻译”是如何翻译前面那两段中文内容的,以及更前面的法语和德语段落的。要理解它为什么是失败的项目,人们需要牢记“伊莉莎效应”。百种语言引擎并没有在阅读任何东西——至少不是人类意义上“阅读”。它只是在机械处理文字。它所处理的符号与我们对这个世界的体验无关。它没有记忆可供提取,它能够快速处理文字,但这些文字对它而言没有图像、没有理解、没有意义。

    05

    一个朋友问我,“谷歌翻译”的局限是否只是大数据资源不足造成的。他认为,如果你能大幅增加数据资源,比如,数百万或数十亿个数据库,最终它就能满足你所有的翻译需求,并且还能翻得很完美。但我不这么认为。拥有更多的“大数据”不会让你更接近于获得理解力,因为理解力涉及到拥有思想,缺乏思想是今天机器学习面临的最根本的问题。因此,我敢说,更大的数据库——甚至巨大的数据库——也不能解决这个问题。

    另一个问题:“谷歌翻译”对神经网络——一种试图模拟大脑的技术——的使用能让机器对语言产生理解吗?初看起来,似乎是可行的。

    但“谷歌翻译”对语言的处理仍然没能超越单词和词组这样的初级层面。在庞大数据库中,所有类型的统计数据都可以被用于神经网络,但这些统计数据只是用某些词语去联接另一些词语,而不是去联接思想。它没有试图创造一种内部结构,这种结构可以被视作思想、图像、记忆、体验。这些缥缈的心智内容仍然难以用算法来创生,因此,作为一种替代品,谷歌使用了成熟而具有效率的语词聚类统计算法。然而,这种技术的效果无法等同于思想,而思想是人们在阅读、理解、创造、修改、评判作品的过程中产生的。

    尽管我的看法是偏负面的,但人们对于“谷歌翻译”提供的服务还是给予了很高评价:它虽然不能很准确地把语言A翻成语言B,但的确可以在交流过程中发挥应急作用。只要被翻成语言B的文字大体上可以被理解,很多人就会对它十分满意。如果人们能明白一段外语的“基本意思”,他们就会觉得很开心。然而,在我看来,这显然不是“翻译”这个词的本义,但对有些人来说,“谷歌翻译”无疑是一个伟大的产品,它所做的工作就是翻译。

    好吧,我明白这些人的需求,也理解他们的那种开心。对他们而言,这的确是一种幸运。最近,我看到有技术狂热分子制作了柱状图,号称可以比较人工翻译和机器翻译的“质量”,这些图形表明,最新版本的翻译引擎已经很接近人工翻译水平了。但是,在我看来,这是一种对无法量化的事物进行量化的伪科学,或者,你也可以认为,是一群技术呆子试图将无形的、微妙的、艺术的事物进行量化。

    在我眼里,今天的“谷歌翻译”,其水准既有优秀的一面,也有搞笑的一面,而我是无法把我对它的感受进行量化的。回想一下前面提到的第一个翻译例子吧,里面涉及到“他的”和“她的”物品,没有理解能力的翻译机器几乎把这些物品都翻对了。尽管取得了这样小小的成功,但它还是没能理解整段话的意思。在这种情况下,人们应该如何量化它的工作质量呢?

    让我回到人类译者的悲观图景:他们很快将被机器超越和淘汰,逐渐变得无所事事,从而成为翻译质量的检验者和文字的修补者。这种看法充其量只适用于平庸的译者。一个严肃艺术家的工作绝不是从对低俗破烂作品的修修补补开始的,这些破烂不可能被打造成高雅艺术。艺术不是这个样子,而翻译无疑是一门艺术。

    (硅)但我也不想让读者对我留下这样一种印象:我相信计算机永远不可能拥有智力和理解力。如果我的这篇文章传递了这样一种意思,那是因为我提到的技术没有触及到人类智力的核心之处,前面所举的那些例子很清晰地表明了机器翻译的局限性。

    在我看来,没有根本的理由认为,原则上机器不会在某一天学会思考、创造、搞怪、怀旧、兴奋、恐惧、高兴、沉默、期盼。进而言之,机器可以真正学会在不同语言之间进行翻译。没有根本的理由认为,机器不会在某一天成功翻译笑话、双关语、剧本、小说、诗歌,当然,还有像本文这样的文章。但是,所有这一切只有在机器拥有了类似人类的思想、情绪和体验的基础上才能实现,而这绝非近在咫尺的事情。实际上,我相信我们还有相当长的路要走。至少,这是一个一辈子对人类心智之深邃充满敬畏的人所热切希望的。

    注释:

    [1] Pi在这里是π的谐音,代表略大于3的数字。

    [2] 比如,汽车通常被认为是属于男性的物品,因此,法语就只会说“他的汽车”,而不会说“她的汽车”。毛巾通常被认为是属于女性的物品,因此,法语就只会说“她的毛巾”,而不会说“他的毛巾”。

    [3] hers本来意指“她的书房”,但它没把这个意思翻出来,而是翻成了“他们”。

    [4] 中文意思与原文翻成的中文大致相同。

    [5] 这句法文是谷歌翻译的,作者认为它是词不达意的。

    本文来自微信公众号:神经现实(ID:neureality),作者:侯世达(DOUGLAS HOFSTADTER,美国著名认知科学家、比较文学家、翻译家,印第安纳大学认知科学和比较文学教授、著有《哥德尔、艾舍尔、巴赫:集异璧之大成》,该书获得普利策奖和美国国家图书奖),原文发表于《 THE ATLANTIC》。

    *文章为作者独立观点,不代表虎嗅网立场

    本文由 神经现实© 授权 虎嗅网 发表,并经虎嗅网编辑。转载此文请于文首标明作者姓名,保持文章完整性(包括虎嗅注及其余作者身份信息),并请附上出处(虎嗅网)及本页链接。原文链接:

    未按照规范转载者,虎嗅保留追究相应责任的权利返回搜狐,查看更多

    责任编辑:

    本文由新莆京娛樂发布于爱情小说,转载请注明出处:人工智能,作者侯世达疯狂吐槽谷歌翻译

    关键词: 新莆京娛樂

上一篇:首场沙龙,一个HR开始废掉的两种迹象

下一篇:没有了