基于跨语言预训练的零-shot神经机器翻译迁移

Dec, 2019

基于跨语言预训练的零-shot神经机器翻译迁移

Cross-lingual Pre-training Based Transfer for Zero-shot Neural Machine Translation

Baijun Ji, Zhirui Zhang, Xiangyu Duan, Min Zhang, Boxing Chen...

TL;DR通过跨语言预训练的双语预训练方法，建立了通用编码器，将传递者和接受者的语言空间对齐，使得零翻译成为可能。实验结果表明，该方法显著优于强的基准线和各种多语言NMT方法。

Abstract

transfer learning between different language pairs has shown its effectiveness for neural machine translation (NMT) in low-resource scenario

发现论文，激发创造

提高低资源语言的零-shot翻译

本文提出一种简单的迭代训练过程，利用系统直接生成的翻译对零-shot方向进行翻译，以及原始并行数据，来重新训练多语言网络，有效提高了多语言模型的BLEU分数，并且在非零-shot语言方向上的性能也略有提升。

Nov, 2018

零样本神经机器翻译中的缺失元素

本文研究了多语言神经机器翻译模型的零样本翻译问题，提出了基于辅助损失的方法，并在WMT14英语-法语/德语上实现了与基于中介语的模型相媲美的零样本翻译效果，同时在IWSLT 2017共享任务中验证了该方法的易于扩展性。

Mar, 2019

无共享词汇的神经机器翻译模型的有效跨语言转移

文章介绍了一种不需要共享词汇的方法，使用跨语言词嵌入来缓解语言间的词汇不匹配，注入人工噪声，从预训练数据轻松生成合成数据，并在五种低资源翻译任务中将纯NMT转移提高了+5.1% BLEU，优于多语言联合训练。

May, 2019

利用语言无关约束改进零-shot翻译

通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零-shot 机器翻译，此方法可使系统在IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。

Jun, 2019

基于语言特定编码器解码器的零样本神经机器翻译改进

本文介绍了一种利用语言特定的编码器-解码器完成零样本翻译的方法。通过区分语言特定的Transformer层和公共层，应用交叉注意力和参数共享等技术，最大化句子的普适性，以实现最佳的语义对齐，此外结合了自编码目标来实现多任务的联合训练。在两个公共的多语言平行数据集上进行实验，它们的结果具有竞争力，而且相当于从头开始联合训练模型时的结果，还表现出增量学习的能力。

Feb, 2021

多语言预训练编码器在零样本跨语言神经机器翻译中的应用

本研究提出了SixT，一种利用多语言预训练编码器（MPE）来促进神经机器翻译模型的跨语言迁移的方法。通过采用两阶段训练计划和位置解缠编码器以及容量增强解码器，SixT在零基础多语言翻译任务上取得了比已有模型更好的结果。

Apr, 2021

重审零样本跨语言转移中英语的首要地位

本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究，发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习，即使训练集是自动从英语翻译而来。同时，该结论对于多语言零样本系统有着重要影响，并且应该指导未来的基准设计。

Jun, 2021

利用通用的表达和交叉映射提高零阶多语种翻译

提出了一种基于状态移动距离的多对多跨语言神经机器翻译模型，通过学习通用表示和跨映射关系，可以实现未经训练的语言对之间的零-shot翻译，实验证明该方法可以改善语义空间的对齐和预测的一致性。

Oct, 2022

利用跨语言一致性正则化提升零样本多语言神经机器翻译

本文介绍了一种跨语言一致性正则化方法CrossConST，用于在多语言神经机器翻译模型中实现零-shot翻译，以实现不同语言之间的普适表示，并提高翻译性能。实验结果证明CrossConST能够提高模型的翻译性能并降低句子表示间的差距，为未来的多语言NMT研究奠定了基础。

May, 2023

无平行语料的零样本跨语言迁移

通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Oct, 2023