Apr, 2023

大规模机器学习 Adam 不稳定性理论

TL;DR本文提出了一个关于大型语言模型训练中先前无法解释的发散行为的理论。该理论说明这一现象是优化算法 Adam 的副作用。通过观察该算法的参数更新向量和训练损失方向的相关性,我们得出这一结论,并给出了不同规模语言模型的训练观察结果。