Mar, 2017

使用超梯度下降进行在线学习率调整

TL;DR本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。