ICMLMay, 2022

大学习率下梯度下降的特殊属性

TL;DR证明大步长是神经网络进行随机梯度下降 SGD 训练所必需的,并且可以帮助实现全局最小值。