Feb, 2021

神经网络梯度下降通常发生在稳定边缘

TL;DR本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失Hessian的最大特征值略高于数值$2/ ext{(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于这种行为与优化领域中的一些传统观念不一致,我们的发现提出了关于这些观念是否与神经网络训练 relevant 的质疑。我们希望我们的研究能够激发未来针对稳定性边缘优化问题的进一步研究。