统一随机梯度下降和拟牛顿法的快速大规模优化

Nov, 2013

统一随机梯度下降和拟牛顿法的快速大规模优化

An adaptive low dimensional quasi-Newton sum of functions optimizer

Jascha Sohl-Dickstein, Ben Poole, Surya Ganguli

TL;DR该研究提出了一种算法，它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息，通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题，通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中，保持了计算可行性和限制了内存需求，且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反，早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似，而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现，算法已发布为开源 Python 和 MATLAB 软件包。

Abstract

We present an algorithm for minimizing a sum of functions that combines the computational efficiency of stochastic gradient descent (SGD) with the second order curvature information accessible by quasi-newton methods

发现论文，激发创造

大规模优化的随机拟牛顿法

本文提出了一种基于限制记忆的BFGS更新公式和子采样Hessian-向量积的随机拟牛顿方法来有效地、稳健地和可伸缩地处理如何将曲率信息纳入随机逼近方法的问题，并通过机器学习问题上的数值结果展示其前景。

Jan, 2014

一种方差减少的随机牛顿法

该研究提出了一种名为“Vite”的基于Stochastic Quasi-Newton算法的优化方法，它利用一种现有的一阶技术来减少噪声和方差，并在大规模学习问题上取得了不错的结果。

Mar, 2015

超越凸性：随机拟凸优化

本文研究随机版归一化梯度下降算法，并证明了该算法在优化拥有拟凸和局部Lipschitz性质的函数时，能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是，该算法要求使用最小的小批量大小，以避免梯度爆炸等问题。

Jul, 2015

IQN：一种具有局部超线性收敛速率的增量拟牛顿方法

本文提出一种增量式拟牛顿方法来最小化一个可用n个平滑和强凸函数表示的目标函数，该方法是一种随机和增量方法，每次迭代的成本与n无关，其收敛特性介于确定性和随机拟牛顿方法之间，利用聚合信息和泰勒展开近似函数、周期性更新目标函数等特性实现了在最优解局部范围内的局部超线性收敛率。

Feb, 2017

具有Nesterov加速梯度的随机拟牛顿方法

本文提出了一种具有Nesterov加速梯度的随机（在线）拟牛顿方法，用于解决神经网络中的大规模非凸优化问题，结果表明其性能优于传统的二阶oBFGS和oLBFGS方法以及常用的一阶随机梯度方法，还在不同的动量率和批处理大小下进行了说明。

Sep, 2019

具有本地简单线性二次速度的随机牛顿和立方牛顿方法

我们提出了两种非常简单的随机二阶方法，用于最小化大量充分光滑和强凸函数的平均值。第一种是牛顿方法的随机变体（SN），第二种是具有立方正则化的牛顿方法的随机变体（SCN）。与现有的随机二阶方法不同，我们的方法没有这种缺点，例如，我们的方法的最简单的变体每次迭代只需要计算一个随机选择函数的梯度和海森矩阵。与大多数现有的随机牛顿和拟牛顿方法相比，人们的方法保证了比一阶 oracle 更快的本地收敛，同时适应了问题的曲率。有趣的是，我们的方法不是无偏的，因此我们的理论为设计新的随机方法提供了新的直觉。

Dec, 2019

锐化的惰性增量拟牛顿法

本文提出了一种 Sharpened Lazy Incremental Quasi-Newton (SLIQN) 方法，旨在解决在大规模自然语言处理等复杂应用领域中，快速且高效地求解凸函数的优化问题。通过将经典的BFGS更新规则与贪婪法相结合，以及采用惰性更新策略，该方法取得了显著优于其他基于增量算法的类欧几里得方法的结果。

May, 2023

带有非渐进性超线性收敛速率的有限记忆贪婪拟牛顿法

本研究提出了一种有界存储拟牛顿方法（LG-BFGS），通过在控制存储需求的情况下利用过去的曲率信息来实现非渐近超线性收敛，并在速度和存储需求之间找到了一种平衡。

Jun, 2023

二阶信息增强方差减少梯度中的小批量鲁棒性

对有限和最小化问题，我们展示了在目标函数中引入部分二阶信息可以显著提高方差减小的随机梯度方法对小批量大小的稳健性，从而使其在保留传统牛顿类型方法的优势的同时更具可伸缩性。

Apr, 2024

自适应和最优的二阶乐观方法在极小极大优化中的应用

我们提出了自适应的、无需线搜索的二阶方法，以最优收敛速度解决凸凹最大最小问题，通过自适应步长，我们的算法采用简单的更新规则，每次迭代仅需解一个线性系统，消除了线搜索和回溯机制的需求，具体而言，我们基于乐观法则并将其与二阶信息合理地结合，与常见的自适应方案不同的是，我们递归地将步长定义为梯度范数和乐观更新中的预测误差的函数，我们首先分析了一种方案，其中步长需要知道Hessian的Lipschitz常数，在额外假设梯度连续Lipschitz的情况下，我们通过局部跟踪Hessian的Lipschitz常数并确保迭代保持有界，进一步设计了一个无需参数的版本，我们还通过将其与现有的二阶算法进行比较来评估我们算法的实际性能。

Jun, 2024