非凸随机优化的随机拟牛顿方法

Dec, 2014

Stochastic Quasi-Newton Methods for Nonconvex Stochastic Optimization

Xiao Wang, Shiqian Ma, Wei Liu

TL;DR本文介绍了基于随机梯度信息的非凸随机优化的随机拟牛顿方法，分别从框架、随机化和具体方法方面进行了研究，并提供了数值结果证明其高效性。

Abstract

In this paper we study stochastic quasi-newton methods for nonconvex stochastic optimization, where we assume that only stochastic information of the gradients of the objective function is available via a stochas

stochastic optimization quasi-newton methods randomized methods sfo-calls complexities numerical results

发现论文，激发创造

一种非凸优化的随机拟牛顿方法

本文提出了一种快速的随机拟牛顿方法，针对平滑性不均匀的情况，通过梯度剪切和方差减小，实现了最优的 O (ε^(-3)) 样本复杂度，并通过简单的超参数调节实现了收敛加速，数值实验证明了该算法优于现有方法。

Mar, 2024

具有 Nesterov 加速梯度的随机拟牛顿方法

本文提出了一种具有 Nesterov 加速梯度的随机（在线）拟牛顿方法，用于解决神经网络中的大规模非凸优化问题，结果表明其性能优于传统的二阶 oBFGS 和 oLBFGS 方法以及常用的一阶随机梯度方法，还在不同的动量率和批处理大小下进行了说明。

Sep, 2019

非凸优化的异步随机拟牛顿 MCMC 算法

本研究开发了一种适用于分布式和共享内存的异步并行随机 L-BFGS 算法，它利用了随机梯度马尔科夫链蒙特卡罗技术的优势，在非凸优化问题中提供了可行性和收敛性的证明，并在多个实验中验证了该算法的优越性能。

Jun, 2018

大规模优化的随机拟牛顿法

本文提出了一种基于限制记忆的 BFGS 更新公式和子采样 Hessian - 向量积的随机拟牛顿方法来有效地、稳健地和可伸缩地处理如何将曲率信息纳入随机逼近方法的问题，并通过机器学习问题上的数值结果展示其前景。

Jan, 2014

具有本地简单线性二次速度的随机牛顿和立方牛顿方法

我们提出了两种非常简单的随机二阶方法，用于最小化大量充分光滑和强凸函数的平均值。第一种是牛顿方法的随机变体（SN），第二种是具有立方正则化的牛顿方法的随机变体（SCN）。与现有的随机二阶方法不同，我们的方法没有这种缺点，例如，我们的方法的最简单的变体每次迭代只需要计算一个随机选择函数的梯度和海森矩阵。与大多数现有的随机牛顿和拟牛顿方法相比，人们的方法保证了比一阶 oracle 更快的本地收敛，同时适应了问题的曲率。有趣的是，我们的方法不是无偏的，因此我们的理论为设计新的随机方法提供了新的直觉。

Dec, 2019

非光滑非凸优化的快速随机方法

本文研究随机算法优化非凸、非光滑的有限和问题。针对此问题，本文提出快速的随机算法，可获得常数迷你批量的收敛性。本文还使用这些算法的变种，证明了比批量近端梯度下降更快的收敛性，并在非凸、非光滑函数的一个子类中证明全局线性收敛率。

May, 2016

强高概率二阶收敛的随机非凸优化

本文研究带有非凸随机函数的随机非凸优化，并提出一种称为 NCG-S 的新型更新步骤，可以在高概率下实现二阶收敛，所提出的随机算法是首个具有高概率二阶收敛和几乎是线性时间复杂度的方法。

Oct, 2017

随机非线性规划的惩罚方法与随机逼近

提出一种基于随机逼近的罚函数方法来解决非线性规划问题，利用噪声梯度或函数值来调用随机一阶或零阶神经网络，通过最小化随机一阶或零阶信息可用的非光滑、非凸罚函数的方法来优化。分析了该罚函数方法通过调用随机一阶（或零阶）神经网络获取 ε- 随机临界点的最坏情况复杂度。

Dec, 2013

一种方差减少的随机牛顿法

该研究提出了一种名为 “Vite” 的基于 Stochastic Quasi-Newton 算法的优化方法，它利用一种现有的一阶技术来减少噪声和方差，并在大规模学习问题上取得了不错的结果。

Mar, 2015

超越凸性：随机拟凸优化

本文研究随机版归一化梯度下降算法，并证明了该算法在优化拥有拟凸和局部 Lipschitz 性质的函数时，能够保证收敛到全局最优解。与标准的随机梯度下降算法不同的是，该算法要求使用最小的小批量大小，以避免梯度爆炸等问题。

Jul, 2015