Apr, 2019
阶梯衰减策略:一种近似最优、几何下降的最小二乘学习速率过程
The Step Decay Schedule: A Near Optimal, Geometrically Decaying Learning Rate Procedure For Least Squares
Rong Ge, Sham M. Kakade, Rahul Kidambi, Praneeth Netrapalli
TL;DR这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用 Step Decay 调度方案实现可接受的改进,同时发现 SGD 的最终迭代行为不如期望,并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。