多语言神经机器翻译的 Pareto 前沿
本文提出了一种新的训练框架 Pareto Mutual Distillation (Pareto-MD),通过知识蒸馏协同训练出针对不同语言的 Pareto 最优解,有力地推进了 Pareto 前沿,实验结果表明在 WMT 和 TED 数据集上,我们的方法使 Pareto 前沿显著提高,并且比基线模型的 BLEU 值提高了高达 2.46。
May, 2023
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
本论文提出了一种新的 MNMT 学习目标,基于分布式鲁棒优化,使得这个方法在多种语言对上都可以均衡地表现,并展示了如何实际优化大型翻译语料库。经过广泛实验,证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设置下。
Sep, 2021
本文提出了一种同时在表示层和梯度层面上正则化神经机器翻译(NMT)模型的方法,以解决多语言 NMT 在零 - shot 翻译中出现偏离目标语言及低质量翻译的问题,并在 WMT 和 OPUS 数据集上实现了 5.59 和 10.38 BLEU 的性能提升。
Sep, 2021
多语言机器翻译(MMT)通过不同语言对之间的知识迁移而受益。本文通过在目标辅助语言方面进行大规模研究,涉及语言相似性和语料库大小等两个维度,展示了知识迁移对主要语言对的动态影响。我们发现,在语言相似的辅助目标语言中,存在强烈的正向知识迁移能力,并且随着相似目标语言规模的增加,正向迁移效果进一步增强,有利于主要语言对。与此同时,我们发现远距离的辅助目标语言即使拥有较小的正向迁移能力,也能意外地对主要语言对产生正面影响。此外,我们还展示了远距离的辅助目标语言可以作为一种正则化器,通过增强广义化和模型推理校正来提高翻译性能。
Feb, 2024
本文旨在讨论如何通过两阶段训练策略实现多语言神经机器翻译系统,以解决低效率的问题,并在 WMT'21 多语言翻译任务中进行实验验证,证明我们的系统在大多数方向上优于基线模型,并且不需要架构修改或额外数据收集。
Jun, 2022
本文从实证角度研究了多任务学习的优化动态,特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法,即在高资源任务上进行预训练,然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析,我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用,并在神经机器翻译(NMT)和多语言语言建模中实证了其改进效果。
Dec, 2023
提出了一个名为 Bi-ACL 的框架,旨在解决多语言神经机器翻译中的数据不平衡和表示退化问题。该框架使用仅目标侧单语数据和双语词典,结合双向自编码器和双向对比学习模块,并使用在线约束波束搜索和课程学习采样策略。实验表明,该方法对长尾语言和高资源语言都更有效,并且可以在零 - shot 场景中在不同领域和语言之间转移知识。
May, 2023