如何逃离尖锐的极小值
本文介绍了一种非凸二阶优化算法,其时间复杂度与样本维度和训练样本数量呈线性关系,在训练神经网络和其他非凸目标的机器学习问题上具有广泛应用,并可以保证返回近似局部最小值。
Nov, 2016
通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中,我们发现了一些令人惊讶的发现,希望这能帮助研究人员进一步改进深度学习优化器,并帮助实践者为其问题选择正确的优化器。
Feb, 2022
通过引入一种相对平坦度度量方法,本研究提出一种新的正则化器,该正则化器易于计算、快速高效,适用于各种损失函数,可以在单层网络上计算海森矩阵,提高模型的泛化性能,有效避免了损失曲面映射的昂贵代价。
Jul, 2023
该论文提出了一个理论框架,用于评估和比较梯度下降算法在非凸环境中围绕局部极小值的行为方面的分布学习性能。它发现分散学习策略能够更快地逃离局部极小值并更有利地收敛到更平坦的极小值,从而提高了分类准确性。
Jun, 2024
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系,提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法(GA-SAM)来发现更具鲁棒性的平坦局部最小值,其在自然语言任务上的表现令人满意。
Oct, 2022
现代机器学习通常涉及超参数设置(训练参数数量大于数据集大小),它们的训练结果不仅在训练数据上表现良好,而且具有良好的泛化能力。本文通过与 PAC-Bayes 工具箱相结合的 Poincaré 和 Log-Sobolev 不等式提供了新的包含梯度项的泛化界限,避免了对预测空间维度的明确依赖。我们的结果突出了 “平坦极小值” 对泛化性能的积极影响,直接涉及了优化阶段的益处。
Feb, 2024
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外,本文还提出了 Frob-SAM 和 Det-SAM 两种特定设计的具体优化框架,并通过大量实验证明了该框架的优势。
Jun, 2024