凸优化中优化梯度方法的自适应重启
本文描述了一个简单而启发性的自适应重启技术,它可以显著提高加速梯度方案的收敛速度,并通过观察这些方案在应用多少动量时表现出两种不同的行为模式的分析来支持该技术。我们将周期性行为事件重启技术称为 “高动量” 区域,其中利用目标函数的局部条件数的平方根与周期成比例观察到加速梯度方案产生的迭代,这表明我们重置动量可以恢复最佳的收敛速度,而不需要先验的函数参数知识。
Apr, 2012
本文提出了一种加速的一阶优化算法 —— 鲁棒动量法,可用于优化平滑强凸函数。该算法有一种参数可以调节对梯度噪声的稳健性与最差情况下的收敛速度之间的平衡。算法具有简单的解析形式,并通过在干净和梯度噪声情况下的一系列数值模拟进行了验证。
Oct, 2017
本文提出了一种具有 Nesterov 加速梯度的随机(在线)拟牛顿方法,用于解决神经网络中的大规模非凸优化问题,结果表明其性能优于传统的二阶 oBFGS 和 oLBFGS 方法以及常用的一阶随机梯度方法,还在不同的动量率和批处理大小下进行了说明。
Sep, 2019
我们提出了一种新的优化方法,通过类似于椭球体法的简单几何解释,实现了超平滑何强凸函数的无约束优化,并在数值实验中证明了其优于 Nesterov 加速梯度下降。
Jun, 2015
本文提出一种结合 Alternating minimization(AM)和 Nesterov's acceleration 的自适应加速交替最小化算法,可用于解决具有凸性和非凸性的优化问题,同时不需要任何有关问题的凸性或函数参数等知识。通过证明该算法的收敛速度,得出该方法是自适应且优化的。此外还为具有线性约束的强凸问题开发了其原始 - 对偶修改。
Jun, 2019
本文提供了关于一类自适应梯度方法(包括 AMSGrad,RMSProp 和 AdaGRad)在光滑非凸函数优化方面的收敛性分析,证明了期望下自适应梯度方法能够收敛到一阶稳定点,同时还证明了 AMSGrad,RMSProp 和 AdaGrad 的收敛速率,这些结论有助于更好地理解自适应梯度方法在优化非凸目标时的机制。
Aug, 2018
本文探讨了凸优化中的两个基本一阶算法,梯度下降法(GD)和近端梯度法(ProxGD)。我们着重于通过利用光滑函数的局部曲率信息,使这些算法完全自适应。我们提出了基于观察到的梯度差异的 GD 和 ProxGD 的自适应版本,因此没有额外的计算成本。此外,我们证明了方法的收敛性,仅需假设梯度在局部利普希茨连续。此外,所提出的版本允许使用比 [MM20] 最初建议的更大的步长。
Aug, 2023
本文介绍了用于凸优化中的加速技术的两个关键方法族(动量和嵌套优化方案),动量方法结构收敛证明使用几个主模板(例如用于优化梯度方法的那个)和近端加速,探讨了重新启动方案和一些常见的加速的技术。
Jan, 2021
研究了基于梯度的优化和常微分方程的关系,提出了一种新的极限过程和高分辨率常微分方程模型,发现该模型比现有 ODEs 更为准确地刻画了 Nesterov 的加速梯度法(NAG-SC)以及 Polyak 的重球法之间的差异,对收敛性进行了分析,并利用此模型发现了关于 NAG-C 的新结果。
Oct, 2018