Jan, 2024
通过参数缩放解释自适应梯度方法对无学习率优化的解读
Interpreting Adaptive Gradient Methods by Parameter Scaling for
Learning-Rate-Free Optimization
TL;DR我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法,并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性,并证明在各种情况下,其性能与手动调优的学习率相当。这项工作扩展了无学习率方法的适用性,增强了自适应梯度方法的训练效果。