机器翻译会迫使翻译失业?不会完全取代

2016-12-14 13:38:00 作者:赛先生微信公众号 分类 : 探索发现

  “熟读唐诗三百首,不会作诗也会吟”。见识海量范文之后的机器真的可以通过“暴力学习”来取代人类的工作吗?实际上,优秀的译文应该具有灵活性和创造性,寄望于通过“大数据统计”路线来推进机器翻译的想法是不能指望的,因为这种翻译过程不包括对语句内容及其所属的言语行为的理解,这一重大缺陷也不能通过对该技术的改进而克服。

  最近谷歌汉译英改用了神经网络技术。做了测试的人们有两点共识,一是译文质量比以前的技术要好很多,二是离人的翻译水平还差得很远。有趣的是,在此基础上专家们对机器翻译的前景却有截然相反的估计。乐观主义者认为,照这个速度发展下去,机器早晚会接管所有翻译工作;悲观主义者则认为,根据机器翻译所暴露的缺陷可以看出,这个技术再怎么发展也有好多因素是没办法掌握的。

  这让我们想起了“半瓶水”既可以说成“半满”也可以说成“半空”。一般说来,对于一个正在发展中的技术而言,两种说法都有道理:一方面,现存一些缺陷是会被该技术的进一步发展所弥补的;但另一方面,任何一个技术都有其根本局限,所以不是所有的问题都一定会在这个技术的框架中被解决。要预测机器翻译的发展空间,必须具体分析现有技术对翻译过程的刻画。

  机器翻译的流派

  参考资料[1]介绍了机器翻译领域及其中的主要技术流派。翻译是人工智能研究中最早被考虑到的实际应用之一。在人们发现计算机可以被用来对语言进行编码处理以后,很快就有人想到可以用它来进行翻译工作。和人工智能的其它子领域相似,这里的故事也是跌宕起伏。

  在开始时,受当时语言学界主流(乔姆斯基理论)的影响,机器翻译主要走的是“基于规则”的路线。简而言之,这就是为每种语言整理出一本“词典”和一本“语法书”,然后在两种语言之间建立词和句子的水平上的对应关系。以英译中为例,这样一个翻译过程对每个英文句子进行下列处理:

  (1)分析其语法结构以及其中每个词的角色(主语、谓语、宾语等等)。在这个过程中,主要考虑词类(名词、动词、形容词等等),而不考虑每个词的意思。

  (2)分析其语义,即把句中英语词汇及其语法关系表示成独立于语言的概念关系。

  (3)把这些概念关系用汉语重新表达出来。

  在这些步骤中所遵循的规则都是语言学家所总结出来的。尽管语言学家和人工智能工作者付出了巨大的努力,这条路径并没有导致预想的进展并达到实用水平。这主要是因为人类的语言,即所谓“自然语言”,实在是太复杂了。和人工构造的数学语言或计算机语言不同,自然语言的使用非常灵活,其结果是几乎所有语法规则均有例外,几乎所有的词汇都有多个意义,因而不同语言的语句或词汇之间也就不存在符合规则的对应关系。

  部分地出于对“基于规则”的方案的失望,自然语言处理研究者们逐渐转向了“基于统计”的路线。这个办法是把大量的实际出现的语句整理成“语料库”,然后用统计的办法来发现其中的某些规律性,比如说词与词之间的相继频率(如在“这”之后“是”出现的概率)或可替换性(如把语料库里句子中的“狗”换成“猫”后,有多少结果还在语料库中)。以此来实现语句预测、补全、纠错等功能。把统计方法用到机器翻译当中,就是用大量的已有翻译范文(比如联合国文件)为训练数据来生成一个翻译系统。这种翻译技术直接在两个语言的词句之间建立对应关系,而在此过程当中不依赖于人工整理的语法规则和词典。当然,这个办法要求的数据量和计算量都非常大,但这些现在已不是不可满足的。

  谷歌的神经网络翻译系统是统计方法的一种具体的实现方式。下面这个出自谷歌网站的动图简单表示了这个系统将一个中文句子翻译成英语的过程。首先,一个“编码网络”将逐字加长的输入字串表示成一系列数值向量。然后一个“解码网络”依照这些向量逐词生成一个英语句子。在解码过程中,系统对各个向量的“关注”程度是不同的,这就表现为两个网络节点之间的连线有浓有淡,而且随翻译的进展而改变。

  这两个神经网络都是用大量语料训练出来的,即通过反复调整参数,它们“记住了”这两种语言各语句之间的对应关系,并可以据此推广到以前没见过的句子。对每个输入语句,系统实际上是在计算不同输出语句的概率,并最终选取可能性最高的那个。参考资料[2]是谷歌团队关于这个系统工作原理的技术报告。和以往同样基于统计的翻译系统来比,这个系统的优势之一就是把“短语到短语”的翻译拓展到“句子到句子”的翻译,因此改善了译文的可读性。另一个创新是把没见过的词切分成片段,因此可以根据其前后缀、词根等来决定如何翻译。

  最近,谷歌翻译团队又取得了新进展。现在同一个翻译模型可以处理多语种,并实现了一定程度的“迁移学习”。比如说该模型的训练语料是在英语-日语之间和英语-韩语之间,但训练完成后可以被用于日语-韩语之间的翻译,尽管该模型从未被直接在这两个语言之间被训练过。这种功能被称作“零数据”(zero-shot)翻译,但这个说法有误导之嫌,因为翻译仍然是基于海量数据的,尽管不是直接关于某次翻译所涉及的两种语言间的对应关系。

  统计翻译能走多远

  对不关心技术细节的读者,我们只需说统计翻译的基本思路是“照猫画虎”,即把每句话按照最接近、最常见的方式处理,正所谓“熟读唐诗三百首,不会作诗也会吟”。在系统见识了海量范文之后,用这个办法的确可以完成大量翻译工作。随着语料的积累、算法的优化、硬件性能的提高等可以预见到的进展,机器翻译的能力必定会进一步提高。

  但这不意味着统计翻译可以完全取代人的翻译工作。具体到谷歌神经网络翻译来说,下面两个基本预设其实就划出了这个技术的边界:(1)“翻译是把一种语言中的语句对应到另一种语言中的语句”;(2)“在诸个可能的翻译结果中,选择那个在训练语料中最常出现的”。

  这两个预设对简单翻译任务来说是合理的,但翻译活动中的很多其它因素被完全忽略了,例如背景知识、上下文、作者(说者)的意图、读者(听者)的接受能力、文体的一贯性、情感色彩等等。在任何需要考虑这些因素的场合,神经网络翻译的局限性就暴露出来了。

最近更新
科普

科普图集
带着朋友和机器人上月亮散步

带着朋友和机器人上月亮散步>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。