浅谈神经机器翻译

联系翻译顾问 在线报价
2021-01-21 01:06:20 | 阅读:36 | 作者:翻译吖小编
广东翻译吖编辑发布 01-08 08:57:52 计算机最早的目标之一是将文本从一种语言自动转换为另一种语言。考虑到人类语言的流动性,自动或机器翻译可能是最具挑战性的人工智能任务之一。传统上,基于规则的系统被用于这项任务,在20世纪90年代用统计方法取代了这一系统。最近,深度神经网络模型在一
本文共有2320个文字,预计阅读所需时间6分钟

  广东翻译吖编辑发布 01-08 08:57:52

  计算机最早的目标之一是将文本从一种语言自动转换为另一种语言。

  考虑到人类语言的流动性,自动或机器翻译可能是最具挑战性的人工智能任务之一。传统上,基于规则的系统被用于这项任务,在20世纪90年代用统计方法取代了这一系统。最近,深度神经网络模型在一个恰当地命名为神经机器翻译的领域中实现了最先进的结果。

  在这篇文章中,您将发现机器翻译的挑战和神经机器翻译模型的有效性。

  阅读这篇文章后,你会知道:

  •   鉴于人类语言固有的模糊性和灵活性,机器翻译具有挑战性。

  •   统计机器翻译将经典的基于规则的系统替换为学习从示例翻译的模型。

  •   神经机器翻译模型适合单个模型,而不是微调模型的管道,目前可以获得最先进的结果。

  让我们开始吧。

什么是机器翻译?

  机器翻译是将一种语言的源文本自动转换为另一种语言的文本的任务。

  在机器翻译任务中,输入已经由某种语言的符号序列组成,并且计算机程序必须将其转换为另一种语言的符号序列。

  - 第98页,深度学习,2016年。

  给定源语言中的一系列文本,该文本没有一个单一的最佳翻译成另一种语言。这是因为人类语言的自然模糊性和灵活性。这使得自动机器翻译的挑战变得困难,也许是人工智能中最难的一个:

  事实是,准确的翻译需要背景知识,以解决歧义并确定句子的内容。

  - 第21页,人工智能,现代方法,第3版,2009年。

  经典的机器翻译方法通常涉及将源语言中的文本转换为目标语言的规则。这些规则通常由语言学家开发,可以在词汇,句法或语义层面上运作。这种对规则的关注给出了这个研究领域的名称:基于规则的机器翻译,或RBMT。

  RBMT的特点是明确使用和手动创建语言知情规则和表示。

  - 第133页,自然语言处理和机器翻译手册,2011年。

  经典机器翻译方法的主要局限性是开发规则所需的专业知识,以及所需的大量规则和例外。

什么是统计机器翻译?

  统计机器翻译(简称SMT)是使用统计模型来学习将文本从源语言翻译成目标语言,从而提供大量的示例。

  使用统计模型的任务可以正式说明如下:

  给定目标语言中的句子T,我们寻找翻译者产生T的句子S.我们知道通过选择最可能给出T的句子S来最小化我们的错误机会。因此,我们希望选择S所以为了最大化Pr(S | T)。

  -机器翻译的统计方法,1990年。

  这种形式规范使输出序列的概率最大化,给定文本的输入序列。它还使得存在一套候选翻译的概念明确,并且需要搜索过程或解码器从模型的输出概率分布中选择最可能的翻译。

  鉴于源语言中的文本,目标语言中最可能的翻译是什么?[...]如何构建一个统计模型,为“好”翻译分配高概率,为“坏”翻译分配低概率?

  - 第xiii页,基于语法的统计机器翻译,2017年。

  该方法是数据驱动的,只需要包含源语言和目标语言文本的示例语料库。这意味着语言学家不再需要指定翻译规则。

  这种方法不需要复杂的语际概念本体论,也不需要源语言和目标语言的手工语法,也不需要手工标记的树库。它所需要的只是数据样本翻译,从中可以学习翻译模型。

  - 第909页,人工智能,现代方法,第3版,2009年。

  很快,机器翻译的统计方法优于传统的基于规则的方法,成为事实上的标准技术集。

  自20世纪80年代末该领域开始以来,最流行的统计机器翻译模型基于序列。在这些模型中,翻译的基本单位是单词或单词序列[...]这些模型简单有效,适用于人类语言对

  -基于语法的统计机器翻译,2017年。

  最广泛使用的技术是基于短语的,并且专注于分段翻译源文本的子序列。

  几十年来,统计机器翻译(SMT)一直是主导的翻译范式。SMT的实际实现通常是基于短语的系统(PBMT),其翻译长度可能不同的单词或短语的序列

  -谷歌的神经机器翻译系统:弥合人与机器翻译之间的差距,2016年。

  虽然有效,但统计机器翻译方法很少关注被翻译的短语,失去了目标文本的更广泛性质。对数据驱动方法的高度关注也意味着方法可能忽略了语言学家已知的重要语法区别。最后,统计方法需要仔细调整转换管道中的每个模块。

什么是神经机器翻译?

  神经机器翻译(简称NMT)是利用神经网络模型来学习机器翻译的统计模型。

  该方法的主要好处是可以直接在源文本和目标文本上训练单个系统,不再需要统计机器学习中使用的专用系统的管道。

  与传统的基于短语的翻译系统不同,翻译系统由许多分别调整的小子组件组成,神经机器翻译尝试构建和训练单个大型神经网络,该网络读取句子并输出正确的翻译。

  -通过联合学习对齐和翻译的神经机器翻译,2014。

  因此,神经机器翻译系统被称为端到端系统,因为翻译仅需要一个模型。

  NMT的优势在于它能够以端到端的方式直接学习从输入文本到相关输出文本的映射。

  -谷歌的神经机器翻译系统:弥合人与机器翻译之间的差距,2016年。

编码器 - 解码器模型

  多层感知器神经网络模型可用于机器转换,尽管模型受固定长度输入序列的限制,其中输出必须具有相同的长度。

  最近,通过使用组织成编码器 - 解码器架构的递归神经网络,这些早期模型得到了极大的改进,该架构允许可变长度的输入和输出序列。

  编码器神经网络将源句子读取并编码为固定长度的矢量。然后,解码器从编码矢量输出转换。整个编码器 - 解码器系统由语言对的编码器和解码器组成,它们被联合训练,以最大化给定源句子的正确翻译的概率。

  -通过联合学习对齐和翻译的神经机器翻译,2014。

  编码器 - 解码器架构的关键是模型将源文本编码为称为上下文向量的内部固定长度表示的能力。有趣的是,一旦编码,原则上可以使用不同的解码系统将上下文翻译成不同的语言。

  ...一个模型首先读取输入序列并发出总结输入序列的数据结构。我们将此摘要称为“上下文”C. [...]第二种模式(通常是RNN)然后读取上下文C并生成目标语言的句子。

  - 第461页,深度学习,2016年。

  有关编码器 - 解码器递归神经网络架构的更多信息,请参阅帖子:

  •   编码器 - 解码器长短期存储器网络

带注意的编码器解码器

  虽然有效,但编码器 - 解码器架构在要翻译的长文本序列方面存在问题。

  问题源于必须用于解码输出序列中每个字的固定长度内部表示。

  解决方案是使用注意机制,该机制允许模型在输出序列的每个字被解码时学习将注意力放在输入序列的哪个位置。

  使用固定大小的表示来捕获很长句子的所有语义细节是非常困难的。[...]然而,更有效的方法是阅读整个句子或段落[...],然后一次一个地产生翻译的单词,每次都集中在他输入句子的不同部分以收集所需的语义细节生成下一个输出字。

  - 第462页,深度学习,2016年。

  目前关注的编码器 - 解码器循环神经网络架构是机器翻译的一些基准问题的最新技术。这种架构用于谷歌翻译服务中使用的谷歌神经机器翻译系统(GNMT)的核心。
https://translate.google.com

  ......当前最先进的机器翻译系统由引起注意的模型提供动力。

  - 第209页,自然语言处理中的神经网络方法,2017年。

  有关注意事项的更多信息,请参阅帖子:

  •   长短时记忆递归神经网络的注意事项

  尽管有效,但神经机器翻译系统仍然存在一些问题,例如缩放到较大的单词词汇表以及训练模型的速度慢。目前有大型生产神经翻译系统的重点领域,例如Google系统。

  神经机器翻译的三个固有缺点:它的训练速度和推理速度较慢,处理稀有单词的效率低,有时无法翻译源句中的所有单词。

  -谷歌的神经机器翻译系统:弥合人与机器翻译之间的差距,2016年。

进一步阅读

  如果您希望深入了解,本节将提供有关该主题的更多资源。

图书

  •   自然语言处理中的神经网络方法,2017。

  •   基于语法的统计机器翻译,2017年。

  •   深度学习,2016年。

  •   统计机器翻译,2010。

  •   2011年自然语言处理与机器翻译手册。

  •   人工智能,现代方法,第3版,2009年。

文件

  •   机器翻译的统计方法,1990。

  •   评论文章:基于实例的机器翻译,1999。

  •   使用RNN编码器 - 解码器进行统计机器翻译的学习短语表示,2014。

  •   2014年通过联合学习协调和翻译的神经机器翻译。

  •   谷歌的神经机器翻译系统:缩小人机翻译之间的差距,2016年。

  •   用神经网络进行序列学习的序列,2014。

  •   经常性连续翻译模型,2013年。

  •   基于短语的统计机器翻译的连续空间翻译模型,2013。

额外

  •   机器翻译档案

  •   维基百科上的神经机器翻译

  •   第13章,神经机器翻译,统计机器翻译,2017年。

摘要

  在这篇文章中,您发现了机器翻译的挑战和神经机器翻译模型的有效性。

  具体来说,你学到了:

  •   鉴于人类语言固有的模糊性和灵活性,机器翻译具有挑战性。

  •   统计机器翻译将经典的基于规则的系统替换为学习从示例翻译的模型。

  •   神经机器翻译模型适合单个模型而不是精细调整模型的管道,并且目前实现最先进的结果。

69.2K
翻译服务:
音像听译 结婚证翻译 冶金翻译 桌面排版(DTP) 论文翻译 土耳其语翻译 标书翻译 游戏翻译 电力翻译 医药翻译 贸易翻译词汇 化工翻译词汇 乌兹别克语翻译 波兰语翻译 文化传媒翻译 金融翻译 许可证翻译 报告翻译 旅游翻译 泰语翻译
推荐阅读 更多资讯+
许多语言对中的免费AutoSuggest词典
许多语言对中的免费AutoSuggest词典

如果显示您需要的单词,您可以从列表中选择它。广东翻译吖编辑发布08-0209:18:04您是否知道可以为TradosStudio下载免费的AutoSuggest词典?AutoSuggest词典可以帮助您在TradosStudio中更快地进行翻译。您可以从具有至少25,000个翻译单元的翻译记忆库创建自己的AutoSuggest词典。如果显示您需要的单词,您可以从列表中选择它。它包含从翻译记忆库中提......

详情查看>>
为IT 与软件行业提供行业语言服务解决方案
为IT 与软件行业提供行业语言服务解决方案

凭借在本地化和翻译服务方面的丰富经验,可以为您的产品在全球取得成功提供强有力的支持。凭借在本地化和翻译服务方面的丰富经验,可以为您的产品在全球取得成功提供强有力的支持。IT与软件业的翻译内容主要为信息技术产品和系统手册、在线帮助文件、用户界面、电子学习和其他培训材料、销售和营销相关材料、白皮书、网站等。我们针对该行业的源语言一般为英语和中文,目标语言主要为简体中文、繁体中文、日语、韩语、越南语、印......

详情查看>>
区块链技术如何改变药理学供应链
区块链技术如何改变药理学供应链

对于不公平地处于危险中的患者来说,假冒药物不仅仅是一个问题;对于那些必须争取证明自己的凭据以及仔细审查他们所处理的每个供应商的合法公司来说,这也是一种负担。新技术,例如嵌入全息图的安全封条,磁性墨水字符识别和“DNA”包装,可以暂时缓解伪造者。已建立的市场也受到影响。引入了新技术来打击伪造品,但成熟的毒品造假者很快就会学会绕过它们。这是一个严重的问题,不仅伤害了不幸被欺骗的患者,而且还损害了合法制......

详情查看>>
同传入门和进阶
同传入门和进阶

我们在做分脑练习的时候会进行录音,然后回放自己刚刚的朗诵,这时候就可以观察自己擅长做什么,如果你对刚刚音频的内容理解全面到位,记得80%左右的信息,但是朗读不清晰,语流不顺畅,会磕磕巴巴,或者朗读速度很慢,那么有可能你捕捉处理信息的能力强,但是语言组织和输出要下功夫;反之则亦然。shadowing跟读练习在我们的日常练习中是用来热身找感觉的,我们平时自己练习或者上课开始的时候,会先做十分钟左右sh......

详情查看>>
 017上半年翻译专业资格考试开始报名
017上半年翻译专业资格考试开始报名

据全国翻译专业资格(水平)考试官方网站消息,各语种上半年考试报名工作已经陆续开始,各省市口、笔译报名方式与时间略有区别,请各地区考生抓紧时间进行报名工作。com。cn/examfront)。com。报名照片须为证件照,JPG或JPEG格式,大于30K......

详情查看>>
翻译的技巧 意译
翻译的技巧 意译

。当一个短语从一种语言到另一种语言的翻译很尴尬时,通常会使用这种方法。。Vinay和Darbelnet(Venuti2000:84)说,“。Vinay和Darbelnet(Venuti2000:84)说,“......

详情查看>>
英译中合同翻译怎么收费?
英译中合同翻译怎么收费?

审查组二审:审查组接受稿件后,进行和原稿件的同步审查,确定发现问题后打回给译者排版组二审:审查组审查完毕后,交给排版租进行版式审查,如确定有版式问题后打回给相关部门。审查是一项考研耐心和眼睛的流程,只要出现问题立刻从新翻译,因为要让译稿最完美的呈现在客户手里。较后,在内容表述完整后,在格式和结构上还要保证符合原合同的规范和要求。翻译领域非常重视客户资料的保密工作,我司建立保密措施实行严格保密制度,......

详情查看>>
多语言网站翻译:您需要哪种语言?
多语言网站翻译:您需要哪种语言?

您可能需要使用GoogleTranslate之类的工具来帮助进行搜索。如果是这样,则应将您的网站翻译成巴西葡萄牙语,并使用GeoTargeting将搜索结果集中在这些城市。提示:向您的国内合作伙伴询问重要的区域语言,购买习惯以及当地人想要和需要购买产品的信息类型。经验丰富的翻译公司可以利用最新的技术驱动的翻译工具(例如翻译记忆库和术语管理)来节省您的钱,以提供本地化的内容,这将有助于将语言障碍转化......

详情查看>>