Apr, 2019

阶梯衰减策略:一种近似最优、几何下降的最小二乘学习速率过程

TL;DR这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用 Step Decay 调度方案实现可接受的改进,同时发现 SGD 的最终迭代行为不如期望,并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。