用于零样本神经机器翻译的可变长度神经中介语表示
本研究将显式神经间语纳入多语言编码 - 解码神经机器翻译(NMT)体系结构中,证明该模型通过直接零 - shot 翻译(不使用中转翻译)并使用源语句嵌入来创建英语 Yelp 评论分类器,该分类器能够通过神经间语协调法也对法语和德语评论进行分类,并且即使我们使用的参数数量比成对的 NMT 模型集合少,但我们的方法对于 WMT15 中的每个语言对产生了相当的 BLEU 得分。
Apr, 2018
本研究提出了两种方法,即语言嵌入体现和语言感知多头注意力,以学习信息量丰富的语言表示,从而缓解在多语言神经机器翻译模型中引导翻译的语言令牌的失效问题,并且在两个大规模多语言神经机器翻译数据集上取得了显著的性能提升。同时,进一步的语言类型学预测实验证明,我们的方法学习到的基于矩阵的语言表示可以捕捉丰富的语言类型学特征。
Sep, 2022
这篇论文通过研究多语言神经机器翻译中的表示转移,揭示了导致零射翻译不足的表示问题。研究中引入了身份对(一个句子翻译为自身),以解决多语言研究中基准测量缺失的问题,因为身份对代表了所有语言转移中的最佳表示状态。通过分析,我们证明编码器将源语言转移到目标语言的表示子空间,而不是语言无关的状态。因此,零射翻译不足是因为表示与其他语言相混合并且未能有效地转移到目标语言。基于我们的发现,我们提出了两种方法:1)在编码器中使用低秩语言特定嵌入,2)在解码器中进行语言特定的对比学习表示。在 Europarl-15、TED-19 和 OPUS-100 数据集上的实验结果表明,我们的方法显著提高了零射翻译的性能,改善了语言转移能力,从而为我们的结论提供了实际证据。
Jun, 2024
本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言 NMT 优于传统的双语 NMT,Transformer 模型优于循环神经网络模型,零样本 NMT 优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
提出了一种基于状态移动距离的多对多跨语言神经机器翻译模型,通过学习通用表示和跨映射关系,可以实现未经训练的语言对之间的零 - shot 翻译,实验证明该方法可以改善语义空间的对齐和预测的一致性。
Oct, 2022
本文研究了多语言神经机器翻译模型的零样本翻译问题,提出了基于辅助损失的方法,并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果,同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。
Mar, 2019
本研究分析了神经机器翻译模型在不同粒度上学习到的表示,并通过相关的外围特性对其质量进行评估,结果表明深层次的 NMT 模型学习了大量的语言信息,其中鲜明的发现包括:(i)词组结构和词类等语言单元在模型较低的层次上被捕捉;(ii)而词汇语义或非局部的句法和语义依存则在较高层次上表示更好;(iii)使用字符所学习的表示比使用子词单位所学习的更具有词形信息;(iv)多语言模型所学习的表示比双语模型更加丰富。
Nov, 2019
通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零 - shot 机器翻译,此方法可使系统在 IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。
Jun, 2019
本文探讨了如何改善大规模多语言神经机器翻译模型的性能,并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对,同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明,本方法在一对多和多对多设置中缩小了双语模型的性能差距,并将零 - shot 表现提高约 10 BLEU,接近传统的基于中间语言的方法。
Apr, 2020
该研究提出一种简单的解决方案,使用单个神经机器翻译模型在多种语言之间进行翻译,并且通过在输入句子的开头引入人工标记来指定所需的目标语言,这种方法不需要更改模型框架,该模型的剩余组件包括编码器、解码器和注意力是不变的,并共享所有语言。我们的方法使用共享的词块词汇表,不需要增加任何参数,在保持模型参数总数恒定的情况下,还经常提高所有涉及的语言对的翻译质量,甚至可以在训练期间从未看到的语言对之间进行隐式桥接,因此,我们的翻译模型不限于训练时的语言对,具有一定的通用性和迁移能力。
Nov, 2016