通过跟随黑塞矩阵的特征向量发现多样化的解决方案--Ridge Rider

Nov, 2020

通过跟随黑塞矩阵的特征向量发现多样化的解决方案--Ridge Rider

Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the Hessian

Jack Parker-Holder, Luke Metz, Cinjon Resnick, Hengyuan Hu, Adam Lerer...

TL;DR本文介绍一种新的方法 Ridge Rider，通过迭代地在损失面的不同 ridges 中进行移动和分叉，而非仅仅沿着梯度下降的方向，以找到定性不同的解决方案。作者证明了这种方法在各种具有挑战性的问题中都有很好的表现。

Abstract

Over the last decade, a single algorithm has changed many facets of our lives - stochastic gradient descent (SGD). In the era of ever decreasing loss functions, SGD and its various offspring have become the go-to optimi

发现论文，激发创造

Entropy-SGD: 将梯度下降偏向于宽阔的山谷

本论文提出一种名为Entropy-SGD的新型优化算法，利用能量景观的局部几何进行深度神经网络的训练，结果显示该算法相较于SGD具有更平滑的能量景观以及更好的泛化性能，是目前最先进的技术之一。

Nov, 2016

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。

Jul, 2018

带有偏置但一致的梯度估计的随机梯度下降

本研究针对带图等情景，探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明，consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好，这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。

Jul, 2018

利用海森矩阵特征值密度研究神经网络优化

研究优化过程中深度神经网络中Hessian谱的演化对动力学的影响，发现对于非批归一化网络，谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度，而批归一化网络中这两种效应几乎不存在。

Jan, 2019

无痛随机梯度: 插值，线性搜索和收敛速率

本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法，在数据插值设置中，使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率，同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法，该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率，并在标准分类任务上表现出了良好的性能。

May, 2019

基于Hessian的SGD分析：深度网络的动力学和泛化

本文通过对训练损失函数的海森矩阵及其相关量的分析，探讨了随机梯度下降（SGD）的优化动态和泛化行为等三个问题，并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。

Jul, 2019

随机梯度下降-上升: 统一理论和新高效方法

本文提出了SGDA的统一收敛性分析框架，覆盖了各种随机梯度下降上升方法，并分别提出了多种新变体方法，通过大量数值实验证明了这些方法的重要性质。

Feb, 2022

随机梯度下降的噪声几何：定量和分析性特征化

本文对超参数化线性模型和两层神经网络的噪声几何进行全面的理论研究，揭示了随机梯度下降在逃离尖锐极小值时存在沿平坦方向的显著分量。

Oct, 2023

深度学习的超出单一模型视图：随机优化算法的优化与泛化能力

本文采用一种新方法，通过估计随机优化器的稳态分布，从多条优化轨迹的集合中综合评估，旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估，我们着重在统计框架下进行公平的基准测试和建立统计显著性，揭示了训练损失与保持精确度之间的关系以及SGD、噪声使能变体和利用BH框架的新优化器的可比性能，值得注意的是，这些算法展示了与SAM等平坦最小值优化器相当的性能，但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索，鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。

Mar, 2024

使用部分海森矩阵的 SGD 优化深度神经网络

基于二阶算法和Hessian矩阵的优化器SGD-PH在深度神经网络训练中取得了良好的性能。

Mar, 2024