深度网络可通过尖利极小化实现泛化
尽管进行了广泛的研究,但超参数化神经网络为何能够泛化的根本原因仍然不清楚。本研究通过理论和实证研究指出,对于两层 ReLU 网络,(1)平坦确实意味着泛化;(2)存在不泛化的最平坦模型,锐度最小化算法无法泛化;(3)最令人惊讶的是,存在不泛化的最平坦模型,但锐度最小化算法仍然可以泛化。我们的结果表明,锐度与泛化之间的关系微妙地依赖于数据分布和模型架构,锐度最小化算法不仅通过最小化锐度来实现更好的泛化。这需要寻找超参数化神经网络泛化的其他解释。
Jul, 2023
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
现代机器学习通常涉及超参数设置(训练参数数量大于数据集大小),它们的训练结果不仅在训练数据上表现良好,而且具有良好的泛化能力。本文通过与 PAC-Bayes 工具箱相结合的 Poincaré 和 Log-Sobolev 不等式提供了新的包含梯度项的泛化界限,避免了对预测空间维度的明确依赖。我们的结果突出了 “平坦极小值” 对泛化性能的积极影响,直接涉及了优化阶段的益处。
Feb, 2024
我们提出了一种名为 “最优偏移” 的新方法,通过改变神经网络的参数从一个尖锐的极小值到一个更平坦的极小值,同时保持相同的训练损失值,以此来提高神经网络的泛化能力。我们的方法基于以下观察:当固定神经网络的输入和输出时,网络内的矩阵乘法可以被看作是欠定线性方程组的解空间,通过解决一个有约束的优化问题可以简单地调整参数。此外,我们引入了一种利用神经坍缩理论减少计算成本并提供更多最优偏移自由度的实用随机最优偏移技术。通过在基准数据集上使用各种深度神经网络结构进行广泛的实验(包括分类和检测),验证了我们方法的有效性。
May, 2024
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024
通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中,我们发现了一些令人惊讶的发现,希望这能帮助研究人员进一步改进深度学习优化器,并帮助实践者为其问题选择正确的优化器。
Feb, 2022
本文研究了具有随机权重的一层和两层神经网络在非凸损失函数情况下的学习行为,引入了宽平原(WFM)这一概念,并探索了 WFM 如何出现以及在学习中起到什么作用。
May, 2019
我们提出了一种新的方法来理解深度学习中损失曲率和泛化之间的关系,特别地,我们使用深度网络损失 Hessian 频谱的现有经验分析来基于一个猜想将深度神经网络的损失 Hessian 和输入输出 Jacobian 联系在一起。我们证明了一系列理论结果,这些结果量化了模型的输入输出 Jacobian 在数据分布上近似其 Lipschitz 范数的程度,并在经验 Jacobian 的术语中推导出一个新的泛化界限。我们使用我们的猜想以及我们的理论结果来提供一个关于最近观察到的渐进锐化现象以及平坦极小值的泛化特性的新解释。我们提供了实验证据来验证我们的论点。
May, 2023
本研究观察到现代深度网络的局部最小值不仅是平坦或尖锐,而且存在许多不对称方向。我们形式化地将这样的最小值定义为不对称山谷,并证明在不对称山谷中,偏向平面的解决方案比确切的最小值更好地推广。此外,我们还发现,批量归一化(BN)似乎是不对称山谷产生的主要原因。
Feb, 2019