基于协方差矩阵预处理的深度神经网络自适应学习率

IJCAIMay, 2016

基于协方差矩阵预处理的深度神经网络自适应学习率

Adaptive Learning Rate via Covariance Matrix Based Preconditioning for Deep Neural Networks

PDF

Yasutoshi Ida, Yasuhiro Fujiwara, Sotetsu Iwamura

TL;DR本文提出了一种名为 SDProp 的自适应学习率算法，通过协方差矩阵预处理来有效处理由随机优化引起的噪声，该算法针对各种神经网络具有比 RMSProp 及其变体更高的效率和有效性。

Abstract

adaptive learning rate algorithms such as rmsprop are widely used for training deep neural networks. →

adaptive learning rate rmsprop sdprop preconditioning neural networks

发现论文，激发创造

非凸优化的平衡自适应学习率

该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法：ESGD，与 RMSProp 相比收敛速度更快，在非凸问题上表现更好。

Feb, 2015

TDprop: Jacobi 预处理有助于时序差分学习吗？

本文研究 Jacobi 预处理在考虑时变差分学习 (TD) 的自适应优化中是否有助于提高性能。通过研究 TDprop 方法并进行理论分析和深度强化学习实验，我们发现适当的 Jacobi 预处理可以改善 Deep RL 中的优化方法，但不一定总是优于 SGD。

Jul, 2020

自适应梯度方法逃离鞍点

该论文研究了深度学习中广泛使用的自适应方法，如 Adam 和 RMSProp，将它们视为预处理的随机梯度下降算法，并提出了新的观点，旨在精确地描述它们在非凸情况下的行为和性能，并证明了它们比传统的 SGD 算法更快地从鞍点逃脱，并且在总体上更快地收敛到二阶稳定点。

Jan, 2019

Adam 和 RMSProp 收敛的充分条件

介绍了一种易于检查的充分条件，仅依赖于基本学习率和历史二阶动量的组合，以保证泛型 Adam/RMSProp 的全局收敛性，同时证明了几种变体的收敛性，并且阐明了 Adam 和 RMSProp 的本质区别。

Nov, 2018

深度神经网络的预条件随机梯度 Langevin 动力学

本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法，在深度神经网络的训练中可以解决参数空间的病态和过拟合问题，并且在逻辑回归，前馈神经网络和卷积神经网络等模型上，表现出了最先进的性能。

Dec, 2015

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

自适应预处理随机梯度 Langevin 动力学

本研究利用自适应参数预处理噪声的方法，将 Fisher Scoring 等高阶曲率信息引入 Stochastic Gradient Langevin Dynamics 中，使其能够有效地跳出深度神经网络中曲率异常的波动区域，与 Adam、AdaGrad 等一阶自适应方法的收敛速度相当，并在测试集上实现了与 SGD 同等的泛化性能。

Jun, 2019

带有对数遗憾界的 RMSProp 和 Adagrad 变种

本文针对 Adaptive gradient methods 中的 RMSProp 方法进行研究，并提出 SC-Adagrad 和 SC-RMSProp 两个变体，使用对数回归算法在强凸函数上具有较小的遗憾值和在深度神经网络上具有更好的性能。

Jun, 2017

曲率信息的 SGD：通过通用李群预条件器

提出了一种新的方法，通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息，类似于 BFGS 算法，加速随机梯度下降（SGD）。该方法涉及两个预条件器：一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性，我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程，而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此，参数更新的学习率和预条件器拟合的步长在自然数值化，它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向，且计算开销较低。我们证明，在多个现代深度学习架构上，基于预条件的 SGD（PSGD）在视觉，自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。

Feb, 2024

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017