ACLOct, 2022

重新审视神经机器翻译中的检查点平均化

TL;DR在神经机器翻译中,采用 checkpoint 平均值来提高模型的性能,此方法计算简单,被广泛采用。本文通过实验,考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用,结果表明 checkpoint 平均值对于性能的提高是必要的,但随着收敛到最优模型的序列不断增加,模型的改善空间较小。