深度矩阵分解中平坦正则化的归纳偏差
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024
本篇论文探讨了深度矩阵分解在矩阵补全和传感中的梯度下降隐式正则化对低秩解的影响,并发现添加深度会增强对低秩解的倾向,结果表明标准正则化的数学符号语言可能不足以完全涵盖梯度下降隐式正则化的机制。
May, 2019
通过引入一种相对平坦度度量方法,本研究提出一种新的正则化器,该正则化器易于计算、快速高效,适用于各种损失函数,可以在单层网络上计算海森矩阵,提高模型的泛化性能,有效避免了损失曲面映射的昂贵代价。
Jul, 2023
通过提出基于海森矩阵的浅度测量,在深度网络训练中检验了大批量 SGD 最小值确实比小批量 SGD 最小值更锐利,并且我们证明了正同态激活的深度网络的等价关系在参数空间中的商流形结构,并提出了一种具有等价不变性的测量平坦度的方法。
Feb, 2019
通过矩阵分解问题的数学建模,探究梯度优化算法所诱导的隐含正则化问题,研究发现规范(norms)不能完全解释矩阵分解问题中的正则化问题,通过实验证明排名(rank)是更有用的解释方式以及有可能解释深度学习中的泛化问题。
May, 2020
通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。
Dec, 2020
我们提出了一种新的方法来理解深度学习中损失曲率和泛化之间的关系,特别地,我们使用深度网络损失 Hessian 频谱的现有经验分析来基于一个猜想将深度神经网络的损失 Hessian 和输入输出 Jacobian 联系在一起。我们证明了一系列理论结果,这些结果量化了模型的输入输出 Jacobian 在数据分布上近似其 Lipschitz 范数的程度,并在经验 Jacobian 的术语中推导出一个新的泛化界限。我们使用我们的猜想以及我们的理论结果来提供一个关于最近观察到的渐进锐化现象以及平坦极小值的泛化特性的新解释。我们提供了实验证据来验证我们的论点。
May, 2023
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的 “有效秩” 动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
Nov, 2020