BriefGPT.xyz
May, 2020
学习率退火可以证明帮助泛化,即使对于凸问题
Learning Rate Annealing Can Provably Help Generalization, Even for Convex Problems
HTML
PDF
Preetum Nakkiran
TL;DR
本研究发现调整学习率档位可以显著影响神经网络的推广性能,并在二维线性回归等凸优化问题中验证了其存在性。研究进一步表明,使用学习率预热(大初始学习率,接着小学习率)可以导致比始终使用小学习率更好的推广性能,这可能是由于训练集和测试集的不匹配以及提前停止的组合造成的。
Abstract
learning rate schedule
can significantly affect
generalization performance
in modern
neural networks
, but the reasons for this are not yet
→