Nov, 2023

关于步长调整和渐进锐化之间的相互作用

TL;DR最近的实证研究发现,深度学习模型的一个有趣特性是通过优化过程中最大特征值(海森矩阵的最大特征值)逐渐增加,直到在关键值处稳定,此时优化器在稳定边缘操作,给定固定步长;我们通过实证研究了使用步长调节器(如 Armijo 线搜索和 Polyak 步长)时,尤其是隐含仅通过局部量(如 sharpness)调节步长的情况下,sharpness 的演化情况;我们发现 Armijo 线搜索经典的性能不佳可以通过其在全样本或大批量情况下不断增加目标函数 sharpness 来解释;另一方面,Polyak 步长通常在稳定边缘操作或略超出稳定边缘,而且胜过 Armijo 和常数步长;最后我们分析表明解锁步长调节器需要理解步长和 sharpness 的联合动态。