May, 2020

学习率退火可以证明帮助泛化,即使对于凸问题

TL;DR本研究发现调整学习率档位可以显著影响神经网络的推广性能,并在二维线性回归等凸优化问题中验证了其存在性。研究进一步表明,使用学习率预热(大初始学习率,接着小学习率)可以导致比始终使用小学习率更好的推广性能,这可能是由于训练集和测试集的不匹配以及提前停止的组合造成的。