Feb, 2023

多语言神经机器翻译的规模定律

TL;DR本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。