ACLOct, 2022
重新审视神经机器翻译中的检查点平均化
Revisiting Checkpoint Averaging for Neural Machine Translation
Yingbo Gao, Christian Herold, Zijian Yang, Hermann Ney
TL;DR在神经机器翻译中,采用 checkpoint 平均值来提高模型的性能,此方法计算简单,被广泛采用。本文通过实验,考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用,结果表明 checkpoint 平均值对于性能的提高是必要的,但随着收敛到最优模型的序列不断增加,模型的改善空间较小。