多语言机器翻译中的高 Pareto 前沿探索

ACLMay, 2023

多语言机器翻译中的高 Pareto 前沿探索

Towards Higher Pareto Frontier in Multilingual Machine Translation

Yichong Huang, Xiaocheng Feng, Xinwei Geng, Baohang Li, Bing Qin

TL;DR本文提出了一种新的训练框架 Pareto Mutual Distillation (Pareto-MD)，通过知识蒸馏协同训练出针对不同语言的 Pareto 最优解，有力地推进了 Pareto 前沿，实验结果表明在 WMT 和 TED 数据集上，我们的方法使 Pareto 前沿显著提高，并且比基线模型的 BLEU 值提高了高达 2.46。

Abstract

multilingual neural machine translation has witnessed remarkable progress in recent years. However, the long-tailed distribution of multilingual corpora poses a challenge of pareto optimization, i.e., optimizing

multilingual neural machine translation pareto optimization pareto mutual distillation knowledge distillation pareto frontier

发现论文，激发创造

多语言神经机器翻译的 Pareto 前沿

本研究旨在探究在多语言神经机器翻译中，给定方向的泛化性能如何随着其采样比例的变化而改变。我们发现，当训练语料具有数据不平衡时，标量化会导致多任务折衷前沿偏离传统的 Pareto 前沿。最后，我们基于观察结果提出了双重幂律，用于预测 MNMT 中的独特性能折衷前沿，并将 MNMT 中的采样比例选择问题制定为基于双重幂律的优化问题，该方法在实验中表现优异。

Apr, 2023

分布式稳健多语言机器翻译

本论文提出了一种新的 MNMT 学习目标，基于分布式鲁棒优化，使得这个方法在多种语言对上都可以均衡地表现，并展示了如何实际优化大型翻译语料库。经过广泛实验，证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设置下。

Sep, 2021

Pareto 多任务学习

该研究提出了一种全新 Pareto 多任务学习算法，通过将多任务学习看作是多目标优化问题，并将多目标优化问题分解为具有不同权衡偏好的一组约束子问题，该算法能够找到一组良好分布的 Pareto 最优解，这些解能够代表不同任务之间的不同权衡，该算法在许多多任务学习应用程序上具有优越性能。

Dec, 2019

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

使用超体积最大化多目标学习预测帕累托前沿

提出了一种使用动态损失函数来进行多目标训练神经网络以逼近 Pareto 前沿的新方法，在三个多目标问题上的实验表明，本方法无需预先指定权衡向量即可以返回分布在不同权衡方案上的输出，并且与现有技术相比具有更多的优势，尤其是对于非对称 Pareto 前沿。

Feb, 2021

帕累托测试在有效控制多重风险方面的应用

本文提出了一种多目标优化的方法 Pareto Testing，通过结合多目标优化和多假设检验，构建了一组有前途的 Pareto Frontier，并将统计检验应用于这个 Pareto Frontier，用以同时控制和优化各种准确性和成本指标，以此可靠地加快自然语言处理（NLP）应用中大规模 Transformer 模型的执行。

Oct, 2022

基于专家模型融合的高效 Pareto 集近似方法

通过专家混合（MoE）模型融合的实用且可扩展的方法，本研究旨在有效学习大型神经网络的 Pareto 集，从而捕捉多个目标之间的权衡关系和大致近似整个 Pareto 集，并在低内存使用量的情况下提供可扩展性。

Jun, 2024

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达 44 种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

多任务学习中高效的连续 Pareto 探索

提出了一种新的、高效的方法，可以生成局部连续的 Pareto 集和 Pareto fronts，并将其应用于现代机器学习问题中。通过提出基于样本的稀疏线性系统，将多目标优化的理论结果扩展到现代机器学习问题中，并实现了局部 Pareto 集的分析。与现有算法相比，通过在各种多任务分类和回归问题上的应用，证明了我们的算法在平衡权衡、有效地找到更多的不同权衡解以及迎合百万级参数任务的能力。

Jun, 2020