本文提出了一种基于限制记忆的 BFGS 更新公式和子采样 Hessian - 向量积的随机拟牛顿方法来有效地、稳健地和可伸缩地处理如何将曲率信息纳入随机逼近方法的问题,并通过机器学习问题上的数值结果展示其前景。
Jan, 2014
该研究提出了一种算法,它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题,通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中,保持了计算可行性和限制了内存需求,且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反,早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似,而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现,算法已发布为开源 Python 和 MATLAB 软件包。
Nov, 2013
证明了解决大规模机器学习中随机目标优化问题的在线随机有限内存版本的 Broyden-Fletcher-Goldfarb-Shanno 拟牛顿法全局收敛性,数值实验证明其优于随机梯度下降算法。
Sep, 2014
本文提出了一种具有 Nesterov 加速梯度的随机(在线)拟牛顿方法,用于解决神经网络中的大规模非凸优化问题,结果表明其性能优于传统的二阶 oBFGS 和 oLBFGS 方法以及常用的一阶随机梯度方法,还在不同的动量率和批处理大小下进行了说明。
Sep, 2019
本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练,通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。
Jun, 2020
提出了一种新的随机 L-BFGS 算法,并证明了它对于强凸平滑函数具有线性收敛率。这种算法对于大规模的凸和非凸优化问题表现出色,具有快速求解高精度的线性收敛率,对于多种步幅表现良好。
Aug, 2015
本文针对随机有限内存 BFGS(L-BFGS)算法进行了回顾。通过提出新的收敛分析框架,我们证明了与之前的工作相比随机 L-BFGS 算法的收敛速度和计算复杂性均得到了改进。此外,我们提出了几种实用的加速策略来提高这种算法的实证性能,并对大多数策略进行了理论分析。大规模逻辑回归和岭回归问题的实验表明,我们提出的策略相对于现有的竞争性算法具有显著的改进。
Apr, 2017
研究一系列随机 Bregman 近端梯度法(SBPG)方法,用于训练具有非 Lipschitz 梯度的非凸目标函数,及应用于神经网络训练中具有多项式内核函数的深度神经网络的优化算法。证明了 SBPG 及其动量版本(MSBPG)在非凸优化问题中有很好的收敛性,提出了 MSBPG 解决大规模优化中随机梯度下降法的一些不足。
Jun, 2023
本文研究了一种使用二阶信息和批处理方法进行并行优化的新算法,在多批处理情况下,实现了稳定的拟牛顿更新,并在分布式计算平台上完成了算法行为和收敛性质的研究。
May, 2016
本文介绍了一种应对分布式计算和多批处理中不可靠计算节点带来的问题的 L-BFGS 方法实现方式,并说明了如何在多批处理中进行稳定的拟牛顿更新以及算法在机器学习的分类与神经网络训练问题中的行为表现及其收敛性质。
Jul, 2017