May, 2024

回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值

TL;DR神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。