ACLMay, 2023

多语言机器翻译中的高 Pareto 前沿探索

TL;DR本文提出了一种新的训练框架 Pareto Mutual Distillation (Pareto-MD),通过知识蒸馏协同训练出针对不同语言的 Pareto 最优解,有力地推进了 Pareto 前沿,实验结果表明在 WMT 和 TED 数据集上,我们的方法使 Pareto 前沿显著提高,并且比基线模型的 BLEU 值提高了高达 2.46。