Feb, 2024

为什么变形器需要 Adam:从 Hessian 的角度看

TL;DRSGD 在 Transformers 上表现明显不如 Adam,我们通过 Hessian 镜头提供了 SGD 在 Transformers 上失败的解释:(1) Transformers 是 “异质” 的:参数块之间的 Hessian 频谱差异巨大,我们称之为 “块异质性” 现象;(2) 异质性妨碍了 SGD 的表现:SGD 在具有块异质性的问题上表现不好。通过验证,在不存在块异质性的问题上,我们发现 SGD 表现良好,但在存在异质性的问题上表现不佳。我们的初步理论分析表明,SGD 失败是因为它对所有块应用了相同的学习率,无法处理块之间的异质性。如果我们能够针对不同的块分配不同的学习率,就能挽救 SGD 的失败,就像 Adam 中设计的那样。