延迟下的极小极大优化

Jul, 2023

Min-Max Optimization under Delays

Arman Adibi, Aritra Mitra, Hamed Hassani

TL;DR本文旨在研究标准最小 - 最大优化算法的性能，特别是在出现延迟梯度更新时。研究结果表明，在合适的技术假设下，梯度下降 - 上升和延迟更新的额外梯度算法仍然保证收敛到凸 - 凹和强凸 - 强凹的鞍点。

Abstract

Delays and asynchrony are inevitable in large-scale machine-learning problems where communication plays a key role. As such, several works have extensively analyzed stochastic optimization with delayed gradients. However, as far as we are aware, no analogous theory is available for min-max op

min-max optimization delayed gradient updates convergence saddle points complexity bounds

发现论文，激发创造

交替梯度下降上升法在极小极大优化中的近最优局部收敛

本文研究交替梯度下降 - 上升算法在极小极大博弈中的应用，表明交替更新算法在多个场景下比同步算法更优，能够在强凸 - 强凹问题上达到几乎最优的局部收敛速率。同时，作者还介绍了一种全局性能相同的子类应用于极小极大博弈上的积分二次约束理论。实证结果表明，交替更新加速了生成对抗网络的训练，但仅在同步算法上使用乐观主义才有帮助。

Feb, 2021

带有延迟更新的随机梯度下降的紧密收敛分析

本文提供基于生成函数的优化算法收敛性分析技巧，研究了梯度下降以及随机梯度下降在二次函数上的有限时间收敛性，证明了在有随机噪声的情况下，延迟对算法的影响可以被忽略，且在分布式优化问题上，加入延迟不会影响性能，且可和同步方法相媲美。

Jun, 2018

极大极小优化问题中 (乐观) 梯度下降的极限点

研究第一阶段方法在极小极大问题中的收敛属性，证明了基本的 GD 和 OGD 方法可以避免不稳定的临界点，并在初始状态下几乎所有的点都是 OGDA 稳定的临界点，而 OGDA 稳定的临界点集合是包含 GDA 稳定的临界点的超集，这些动态的行为可以从动态系统的角度进行研究。

Jul, 2018

分布式延迟随机优化

该文主要研究基于梯度的优化算法中的延迟随机梯度信息的收敛性，以及如何应用于分布式优化算法中克服通信瓶颈和同步要求的问题，结果表明在平滑随机问题中，延迟是渐近可以忽略的，且能达到最优收敛效果。

Apr, 2011

同时训练，更好地泛化：基于梯度的极小极大学习器的稳定性

本文研究发现优化算法在训练最大 - 最小学习问题的生成式对抗网络中发挥了关键作用，涉及泛化性能和算法稳定性等方面，而梯度下降上升算法则是其中一种表现优越的算法。

Oct, 2020

AdaDelay: 延迟自适应的分布式随机凸优化

该研究探讨并分析了实际分布式计算网络情况下的延迟梯度模型，允许参数更新对实际延迟进行敏感处理以产生更大的步长，从而在保持相同渐近复杂度的同时实现更快收敛，针对包含数十亿个数据和特征的真实数据集展开分布式实验，并取得鼓舞人心的改进。

Aug, 2015

极小极大优化中的最优时期随机梯度下降方法

提出了采用 Epoch-GDA 方法解决强凸强凹（SCSC）最小最大问题的锐利分析，并且展示了 Epoch-GDA 可以实现一般 SCSC 最小最大问题的对偶间隙的最优速率 O（1 / T）。

Feb, 2020

局部随机梯度下降上升：收敛分析与通信效率

本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销，可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。

Feb, 2021

随机梯度下降法在极小极大问题中的稳定性和泛化性

通过算法稳定性的视角，对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析，建立了稳定性与泛化能力之间的定量联系。在凸凹情形下，稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。

May, 2021

异步随机优化抗任意延迟

论文考虑带有延迟梯度的随机优化问题，在异步分布式优化中证明了一种简单有效的算法，它可以在统计学意义下达到最优结果。

Jun, 2021