基于通用编解码器的多语言神经机器翻译探索
本文提出了一种针对多语言机器翻译的替代方法,该方法基于特定于语言的编码器 - 解码器,可以更轻松地通过学习相应的模块来扩展到新语言。同时训练初始语言以促进通用 interlingua 表示,实验表明该方法平均优于通用编码器 - 解码器 3.28 BLEU 点,当添加新语言时,无需重新训练其余模块,因此推进了可灵活扩展的模块化多语机器翻译系统的发展。
Apr, 2020
本文提出了一种多语言编码器 - 解码器架构,其中包括一个中间的共享‘注意桥接层’,能够获取多语言句子代表。我们通过以一种我们称之为‘注意力桥’的共享层连接带有语言特定编码器和解码器的模型来训练,并展示了一种新的框架来高效实现多语言 NMT。在多重平行数据集中系统地测试了该方法,结果表明该模型能显著提高强度双语模型的性能,并且也可以用于零 - shot 翻译,展示了其抽象和转移学习的能力。
Nov, 2018
本研究将显式神经间语纳入多语言编码 - 解码神经机器翻译(NMT)体系结构中,证明该模型通过直接零 - shot 翻译(不使用中转翻译)并使用源语句嵌入来创建英语 Yelp 评论分类器,该分类器能够通过神经间语协调法也对法语和德语评论进行分类,并且即使我们使用的参数数量比成对的 NMT 模型集合少,但我们的方法对于 WMT15 中的每个语言对产生了相当的 BLEU 得分。
Apr, 2018
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言 NMT 模型,实现了 103 种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用 NMT 模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
我们提出的多语言语音翻译方法可以不依赖 MultiSLT 数据集,仅基于 ASR 和 MultiNMT 数据进行训练,通过将语音编码器与 MultiNMT 架构耦合可以在零 - shot 场景下实现类似双语翻译的效果,在我们实验的四种不同语言中,通过使用适配器模块可以在提议的架构上实现 + 6 BLEU 点的一致改进和 + 1 BLEU 点的端到端基线改进。
Nov, 2020
本文介绍了一种针对数据有限的语言的新的通用机器翻译方法,利用迁移学习的方法,在多源语言之间共享词汇和句子级别的表示,从而帮助低资源的语言利用高资源语言的词汇和句子表示,在罗马尼亚语 - 英语 WMT2016 上,我们的方法在 6k 的平行语料库上能够获得 23 BLEU 分数,远高于使用多语言训练和反向翻译的强基线系统的 18 BLEU 分数,此外,我们还展示了该方法可以在零样本条件下对同一数据集进行微调,达到接近 20 BLEU 的分数。
Feb, 2018
本研究致力于改进基于编码器 - 解码器框架的神经机器翻译模型,通过显式地结合源侧语法树,在两种结构化表示(顺序和树)之间进行学习,提出具有树覆盖模型和双向树编码器的翻译模型,并证实优于其他基线模型。
Jul, 2017
该研究提出一种简单的解决方案,使用单个神经机器翻译模型在多种语言之间进行翻译,并且通过在输入句子的开头引入人工标记来指定所需的目标语言,这种方法不需要更改模型框架,该模型的剩余组件包括编码器、解码器和注意力是不变的,并共享所有语言。我们的方法使用共享的词块词汇表,不需要增加任何参数,在保持模型参数总数恒定的情况下,还经常提高所有涉及的语言对的翻译质量,甚至可以在训练期间从未看到的语言对之间进行隐式桥接,因此,我们的翻译模型不限于训练时的语言对,具有一定的通用性和迁移能力。
Nov, 2016
本文提出了一种基于双向解码器的神经机器翻译模型,其中正向解码器按原有的方法工作,但加入了逆向解码器,以利用源语言和目标语言的双向信息,从而提高翻译质量。实验结果表明,该模型在中英文和英德文翻译任务上均能够显著提高 NMT 的效果。
Jan, 2018
本文介绍了一种利用语言特定的编码器 - 解码器完成零样本翻译的方法。通过区分语言特定的 Transformer 层和公共层,应用交叉注意力和参数共享等技术,最大化句子的普适性,以实现最佳的语义对齐,此外结合了自编码目标来实现多任务的联合训练。在两个公共的多语言平行数据集上进行实验,它们的结果具有竞争力,而且相当于从头开始联合训练模型时的结果,还表现出增量学习的能力。
Feb, 2021