Oct, 2021

Eigencurve:具有偏斜黑塞谱的二次目标的 SGD 的最优学习速率表

TL;DR提供了Eigencurve,第一个可以在在底层Hessian矩阵的特征值分布呈倾斜分布时,为SGD优化二次目标达到了minimax最优收敛速率(最多提升一个常数),实现其近似的两个简单的学习速度计划,对于某些问题,其形状类似于余弦衰减的优化程序,对于其他情况,所提出的计划优于余弦衰减。