Apr, 2024

高维分析揭示保守的锐化和随机稳定边缘

TL;DR在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的 Hessian 特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。