May, 2019

梯度裁剪为何加速训练:自适应理论解释

TL;DR通过实例推导得到一个新的平滑度条件 - 梯度平滑度随着梯度范数增大而增大,进一步推出了一种新的梯度平滑弱化条件,这使得旧行业标准的梯度下降优化算法可以进行改进。我们证明,这种新条件下的梯度削减和标准化梯度方法的收敛速度可任意加快,并在流行的神经网络训练环境下进行了实证验证。