用于 SGD 的矩阵李群上的预条件器

ICLRSep, 2018

用于 SGD 的矩阵李群上的预条件器

Preconditioner on Matrix Lie Group for SGD

Xi-Lin Li

TL;DR本文研究了两种类型的预处理器和预处理随机梯度下降（SGD）方法，这些预处理器可以从一个框架中导出，并且可以在用户指定的任何矩阵李群上使用自然或相对梯度下降进行有效估计。

Abstract

We study two types of preconditioners and preconditioned stochastic gradient descent (SGD) methods in a unified framework. We call the first one the Newton type due to its close relationship to the Newton method, and the second one the →

preconditioners stochastic gradient descent newton type fisher type preconditioner estimation

发现论文，激发创造

曲率信息的 SGD：通过通用李群预条件器

提出了一种新的方法，通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息，类似于 BFGS 算法，加速随机梯度下降（SGD）。该方法涉及两个预条件器：一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性，我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程，而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此，参数更新的学习率和预条件器拟合的步长在自然数值化，它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向，且计算开销较低。我们证明，在多个现代深度学习架构上，基于预条件的 SGD（PSGD）在视觉，自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。

Feb, 2024

预处理随机梯度下降

本文提出了一种新的方法，通过估计一个预条件器来加速随机梯度下降算法的收敛速度，适用于凸性和非凸性优化，具有稳定梯度降噪的效果，并且经过了大规模问题的有效预条件估计验证，可以在无需调整的情况下，高效解决深度神经网络等复杂问题

Dec, 2015

使用预处理改进最小二乘问题的隐式正则化 SGD

通过对预处理的随机梯度下降（SGD）和岭回归的综合比较研究，我们建立了预处理的 SGD 和岭回归的过度风险界限，并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归，从而展示了预处理的 SGD 的增强正则化效果。

Mar, 2024

用于稀疏线性系统迭代解的图神经预处理器

使用图神经网络作为通用预处理器，通过适当生成的训练数据更好地近似矩阵的逆，从而在解决病态问题方面表现出吸引人的性能，以及在构建时间和执行时间方面的优势，具有潜力解决来自偏微分方程、经济学、统计学、图形和优化等多个领域的大规模挑战性代数问题。

Jun, 2024

深度神经网络的预条件随机梯度 Langevin 动力学

本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法，在深度神经网络的训练中可以解决参数空间的病态和过拟合问题，并且在逻辑回归，前馈神经网络和卷积神经网络等模型上，表现出了最先进的性能。

Dec, 2015

预处理何时有助于或损害泛化能力？

此研究探讨一些最优化方法（包括用于神经网络的一阶梯度下降和二阶自然梯度下降）的隐式偏差如何影响其泛化性能，并提出了管理偏差方差的几种方法及在回归问题中的应用。

Jun, 2020

自适应预处理随机梯度 Langevin 动力学

本研究利用自适应参数预处理噪声的方法，将 Fisher Scoring 等高阶曲率信息引入 Stochastic Gradient Langevin Dynamics 中，使其能够有效地跳出深度神经网络中曲率异常的波动区域，与 Adam、AdaGrad 等一阶自适应方法的收敛速度相当，并在测试集上实现了与 SGD 同等的泛化性能。

Jun, 2019

深度神经网络的 Mini-Block Fisher 方法

该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法，利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算，且在时间效率和泛化能力方面都优于基线方法，并被证明其理想版本能够呈线性收敛。

Feb, 2022

最优预处理与费舍尔自适应 Langevin 采样

本文提出了一种基于最优先决条件的 Langevin 扩散优化方法，使用 Fisher 信息协方差矩阵作为最优先决条件，通过一种自适应 MCMC 方法从目标函数的梯度历史中学习先决条件，实现了在高维数据中的高效数据采样与处理。

May, 2023

自适应梯度方法逃离鞍点

该论文研究了深度学习中广泛使用的自适应方法，如 Adam 和 RMSProp，将它们视为预处理的随机梯度下降算法，并提出了新的观点，旨在精确地描述它们在非凸情况下的行为和性能，并证明了它们比传统的 SGD 算法更快地从鞍点逃脱，并且在总体上更快地收敛到二阶稳定点。

Jan, 2019