多语言神经机器翻译的 Pareto 前沿

Apr, 2023

多语言神经机器翻译的 Pareto 前沿

On the Pareto Front of Multilingual Neural Machine Translation

Liang Chen, Shuming Ma, Dongdong Zhang, Furu Wei, Baobao Chang

TL;DR本研究旨在探究在多语言神经机器翻译中，给定方向的泛化性能如何随着其采样比例的变化而改变。我们发现，当训练语料具有数据不平衡时，标量化会导致多任务折衷前沿偏离传统的 Pareto 前沿。最后，我们基于观察结果提出了双重幂律，用于预测 MNMT 中的独特性能折衷前沿，并将 MNMT 中的采样比例选择问题制定为基于双重幂律的优化问题，该方法在实验中表现优异。

Abstract

In this work, we study how the generalization performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, directions, and total numbers of tasks, we find that

multilingual neural machine translation scalarization data imbalance double power law sampling ratio

发现论文，激发创造

多语言机器翻译中的高 Pareto 前沿探索

本文提出了一种新的训练框架 Pareto Mutual Distillation (Pareto-MD)，通过知识蒸馏协同训练出针对不同语言的 Pareto 最优解，有力地推进了 Pareto 前沿，实验结果表明在 WMT 和 TED 数据集上，我们的方法使 Pareto 前沿显著提高，并且比基线模型的 BLEU 值提高了高达 2.46。

May, 2023

多语言神经机器翻译的规模定律

本研究提供了一个大规模的实证研究，研究了多语言神经机器翻译模型的缩放特性，包括模型规模对模型性能的影响，训练混合物组成对缩放行为的作用，以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式，我们计算了每个语言对分配的有效参数数量，并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终，我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能，显著减少了大型多语言模型中语言平衡所需的工作量。

Feb, 2023

分布式稳健多语言机器翻译

本论文提出了一种新的 MNMT 学习目标，基于分布式鲁棒优化，使得这个方法在多种语言对上都可以均衡地表现，并展示了如何实际优化大型翻译语料库。经过广泛实验，证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设置下。

Sep, 2021

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

通过表示和梯度规范化提高多语言翻译

本文提出了一种同时在表示层和梯度层面上正则化神经机器翻译（NMT）模型的方法，以解决多语言 NMT 在零 - shot 翻译中出现偏离目标语言及低质量翻译的问题，并在 WMT 和 OPUS 数据集上实现了 5.59 和 10.38 BLEU 的性能提升。

Sep, 2021

多语种机器翻译中目标方传输和正则化的角色解构

多语言机器翻译（MMT）通过不同语言对之间的知识迁移而受益。本文通过在目标辅助语言方面进行大规模研究，涉及语言相似性和语料库大小等两个维度，展示了知识迁移对主要语言对的动态影响。我们发现，在语言相似的辅助目标语言中，存在强烈的正向知识迁移能力，并且随着相似目标语言规模的增加，正向迁移效果进一步增强，有利于主要语言对。与此同时，我们发现远距离的辅助目标语言即使拥有较小的正向迁移能力，也能意外地对主要语言对产生正面影响。此外，我们还展示了远距离的辅助目标语言可以作为一种正则化器，通过增强广义化和模型推理校正来提高翻译性能。

Feb, 2024

构建可提供任意 X-Y 翻译的多语言机器翻译系统

本文旨在讨论如何通过两阶段训练策略实现多语言神经机器翻译系统，以解决低效率的问题，并在 WMT'21 多语言翻译任务中进行实验验证，证明我们的系统在大多数方向上优于基线模型，并且不需要架构修改或额外数据收集。

Jun, 2022

完整的多语种神经机器翻译

本文着眼于多语种神经机器翻译模型在英语为中心的双语语料库上的训练，结合多方对齐的语料库重新构建了完整图模型，展示了该模型在多语种翻译中的有效性和竞争力。

Oct, 2020

面对数据不平衡的多语言学习中的顺序问题

本文从实证角度研究了多任务学习的优化动态，特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法，即在高资源任务上进行预训练，然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析，我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用，并在神经机器翻译（NMT）和多语言语言建模中实证了其改进效果。

Dec, 2023

多语种机器翻译中的数据不平衡和表示退化缓解

提出了一个名为 Bi-ACL 的框架，旨在解决多语言神经机器翻译中的数据不平衡和表示退化问题。该框架使用仅目标侧单语数据和双语词典，结合双向自编码器和双向对比学习模块，并使用在线约束波束搜索和课程学习采样策略。实验表明，该方法对长尾语言和高资源语言都更有效，并且可以在零 - shot 场景中在不同领域和语言之间转移知识。

May, 2023