Feb, 2020
SGD 的随机 Polyak 步长:快速收敛的自适应学习率
Stochastic Polyak Step-size for SGD: An Adaptive Learning Rate for Fast Convergence
Nicolas Loizou, Sharan Vaswani, Issam Laradji, Simon Lacoste-Julien
TL;DR本文介绍了一种新颖的随机 Polyak 步长方法,称为 SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。