Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko
TL;DR学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。
Abstract
learning rate schedules used in practice bear little resemblance to those
recommended by theory. We close much of this theory/practice gap, and as a
consequence are able to derive new problem-adaptive learning rate sche
不依赖于优化停止步骤 T 的现有学习率调度比依赖 T 的学习率调度性能更好。我们提出了一种完全避免使用调度的方法,同时在从凸问题到大规模深度学习问题的广泛问题范围内展示了与调度相比的最先进性能。我们的无调度方法与带有动量的标准优化器没有额外的超参数。我们的方法是我们开发的一种新理论的直接结果,该理论统一了调度和迭代平均化。我们的方法的开源实现可在此 URL 找到。