用于 SGD 的矩阵李群上的预条件器
提出了一种新的方法,通过利用从海森矩阵向量积或参数和梯度的有限差分得到的曲率信息,类似于 BFGS 算法,加速随机梯度下降(SGD)。该方法涉及两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。我们使用一种对随机梯度噪声稳健且不需要线性搜索或阻尼的标准在线更新两个预条件器。为了保持相应的对称性或不变性,我们将预条件器约束为某些连通的李群。李群的等变性质简化了预条件器拟合过程,而其不变性质消除了通常在二阶优化器中需要的阻尼需求。因此,参数更新的学习率和预条件器拟合的步长在自然数值化,它们的默认值在大多数情况下都能很好地工作。我们的方法为提高 SGD 的收敛速度提供了一个有希望的方向,且计算开销较低。我们证明,在多个现代深度学习架构上,基于预条件的 SGD(PSGD)在视觉,自然语言处理和强化学习任务上优于 SoTA。本文提供了复现玩具和大规模实验的代码。
Feb, 2024
本文提出了一种新的方法,通过估计一个预条件器来加速随机梯度下降算法的收敛速度,适用于凸性和非凸性优化,具有稳定梯度降噪的效果,并且经过了大规模问题的有效预条件估计验证,可以在无需调整的情况下,高效解决深度神经网络等复杂问题
Dec, 2015
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
Mar, 2024
使用图神经网络作为通用预处理器,通过适当生成的训练数据更好地近似矩阵的逆,从而在解决病态问题方面表现出吸引人的性能,以及在构建时间和执行时间方面的优势,具有潜力解决来自偏微分方程、经济学、统计学、图形和优化等多个领域的大规模挑战性代数问题。
Jun, 2024
本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法,在深度神经网络的训练中可以解决参数空间的病态和过拟合问题,并且在逻辑回归,前馈神经网络和卷积神经网络等模型上,表现出了最先进的性能。
Dec, 2015
此研究探讨一些最优化方法(包括用于神经网络的一阶梯度下降和二阶自然梯度下降)的隐式偏差如何影响其泛化性能,并提出了管理偏差方差的几种方法及在回归问题中的应用。
Jun, 2020
本研究利用自适应参数预处理噪声的方法,将 Fisher Scoring 等高阶曲率信息引入 Stochastic Gradient Langevin Dynamics 中,使其能够有效地跳出深度神经网络中曲率异常的波动区域,与 Adam、AdaGrad 等一阶自适应方法的收敛速度相当,并在测试集上实现了与 SGD 同等的泛化性能。
Jun, 2019
该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法,利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算,且在时间效率和泛化能力方面都优于基线方法,并被证明其理想版本能够呈线性收敛。
Feb, 2022
本文提出了一种基于最优先决条件的 Langevin 扩散优化方法,使用 Fisher 信息协方差矩阵作为最优先决条件,通过一种自适应 MCMC 方法从目标函数的梯度历史中学习先决条件,实现了在高维数据中的高效数据采样与处理。
May, 2023
该论文研究了深度学习中广泛使用的自适应方法,如 Adam 和 RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的 SGD 算法更快地从鞍点逃脱,并且在总体上更快地收敛到二阶稳定点。
Jan, 2019