AGD：一种使用逐步梯度差分的自动可切换优化器用于预调整矩阵

Dec, 2023

AGD：一种使用逐步梯度差分的自动可切换优化器用于预调整矩阵

AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix

Yun Yue, Zhiling Ye, Jiadi Jiang, Yongchao Liu, Ke Zhang

TL;DR我们提出了一种新的自适应优化器 AGD，它利用梯度差异作为对角元素来设计预条件矩阵，并引入了自动切换功能，能够在不同场景下自动切换 SGD 和自适应优化器，实现更好的泛化性能。

Abstract

adaptive optimizers, such as Adam, have achieved remarkable success in deep learning. A key component of these optimizers is the so-called preconditioning matrix, providing enhanced gradient information and regul

发现论文，激发创造

预处理随机梯度下降

本文提出了一种新的方法，通过估计一个预条件器来加速随机梯度下降算法的收敛速度，适用于凸性和非凸性优化，具有稳定梯度降噪的效果，并且经过了大规模问题的有效预条件估计验证，可以在无需调整的情况下，高效解决深度神经网络等复杂问题

Dec, 2015

由Adam优化器转为SGD优化器提升泛化性能

提出一种混合方法 SWATS 进行训练，开头使用自适应方法 Adam，后期如果符合一定条件则切换至 SGD。实验证明，SWATS 能够缩短自适应方法和 SGD 之间的泛化差距，在多数任务上表现良好。

Dec, 2017

贝叶斯过滤统一自适应和非自适应神经网络优化方法

通过贝叶斯滤波的方法，我们提出了一种新的神经网络优化器AdaBayes，能够自适应地在SGD和Adam之间切换，并且能够恢复出AdamW的效果，同时具有和SGD相当的泛化性能。

Jul, 2018

基于Hessian的SGD分析：深度网络的动力学和泛化

本文通过对训练损失函数的海森矩阵及其相关量的分析，探讨了随机梯度下降（SGD）的优化动态和泛化行为等三个问题，并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。

Jul, 2019

预处理何时有助于或损害泛化能力？

此研究探讨一些最优化方法（包括用于神经网络的一阶梯度下降和二阶自然梯度下降）的隐式偏差如何影响其泛化性能，并提出了管理偏差方差的几种方法及在回归问题中的应用。

Jun, 2020

迈向量化Adam的预处理效果

Adam算法的预调节效果和其在减小病态问题方面的应用进行了详细的分析，为二次函数情况下量化了Adam算法能够对海森矩阵条件数的依赖程度，在一定条件下能优于梯度下降算法。

Feb, 2024

深度学习的超出单一模型视图：随机优化算法的优化与泛化能力

本文采用一种新方法，通过估计随机优化器的稳态分布，从多条优化轨迹的集合中综合评估，旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估，我们着重在统计框架下进行公平的基准测试和建立统计显著性，揭示了训练损失与保持精确度之间的关系以及SGD、噪声使能变体和利用BH框架的新优化器的可比性能，值得注意的是，这些算法展示了与SAM等平坦最小值优化器相当的性能，但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索，鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。

Mar, 2024

使用部分海森矩阵的 SGD 优化深度神经网络

基于二阶算法和Hessian矩阵的优化器SGD-PH在深度神经网络训练中取得了良好的性能。

Mar, 2024

使用预处理改进最小二乘问题的隐式正则化 SGD

通过对预处理的随机梯度下降（SGD）和岭回归的综合比较研究，我们建立了预处理的SGD和岭回归的过度风险界限，并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归，从而展示了预处理的SGD的增强正则化效果。

Mar, 2024

预条件共轭梯度递归发现具有尖锐概括性的过度参数化神经网络用于非参数回归

我们考虑使用梯度下降或其变种训练过度参数化的二层神经网络进行非参数回归，并证明了在神经网络使用经典梯度下降方法配合早停止训练时，当目标函数具有在深度学习文献中广泛研究的谱偏差时，训练后的网络提供了更尖锐的广义界限，具有最小化的最优速率。

Jul, 2024