Feb, 2020

SGD的随机Polyak步长:快速收敛的自适应学习率

TL;DR本文介绍了一种新颖的随机Polyak步长方法,称为SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。