ICMLFeb, 2020

深度网络平坦极小值的独特特性

TL;DR研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。