Sep, 2021

神经机器翻译的规模定律

TL;DR通过本文所提及的实证研究,我们揭示了神经机器翻译中,编码器 - 解码器 Transformer 模型的扩展特性。具体而言,本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系,并在多种扩展方法及语言下展现了估计的准确性。我们同时观察到编码器与解码器扩展的效应不同,基于此提供了编码器 / 解码器容量的最优化分配建议。我们还发现模型的扩展表现受到训练 / 测试集组成偏差的极大影响,称之为 “构造偏差”,这种偏差对减少交叉熵损失十分重要。最后,我们调查了交叉熵损失与生成的翻译质量之间的关系,并发现在测试数据自不同语言的数据翻译转换中,模型大小的改变对模型的推理质量有着不同的影响。我们在本研究中使用的所有模型的生成文本都允许被公开。