BriefGPT.xyz
Ask
alpha
关键词
loss hessian
搜索结果 - 4
ICLR
使用损失面几何精确刻画 SGD 的稳定性
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
PDF
5 months ago
轨迹对齐:通过分岔理论理解稳定边缘现象
通过实证研究,证明最大特征值(也被称为锐度)沿着梯度下降轨迹的演化呈现出一种叫做稳定边缘现象(EoS)的现象,进一步证明了在合适的重新参数化下,不同的梯度下降轨迹会在一个特定的分叉图上对齐,从而建立了锐度逐步增加和 EoS 现象的理论分析。
PDF
a year ago
二次回归模型表现出稳定边缘的逐渐加强
本文研究了大步长梯度下降的特性,证明二阶回归模型中存在一种逐渐趋于稳定的过程,这一过程不仅仅局限于神经网络等复杂的高维非线性模型中,这可能是一种离散学习算法。
PDF
2 years ago
深度学习训练不稳定性的损失曲率视角
本论文探究了损失海森矩阵在多项分类任务中的演化,以了解损失曲率对训练动态的影响。结果表明,成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域,提高学习率稳定性,类似于各种训练不稳定性缓解策略最终解决神经网络优化的相
→
PDF
3 years ago
Prev
Next