同时训练,更好地泛化:基于梯度的极小极大学习器的稳定性
本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文通过分析实际情景下GAN的泛化能力,证明了原始GAN的损失函数训练得到的鉴别器的泛化能力较差,并提出了一种零中心梯度惩罚策略以改善鉴别器的泛化能力,并保证GAN的收敛和泛化。通过在合成和大规模数据集上的实验,验证了理论分析的正确性。
Feb, 2019
本文研究交替梯度下降-上升算法在极小极大博弈中的应用,表明交替更新算法在多个场景下比同步算法更优,能够在强凸-强凹问题上达到几乎最优的局部收敛速率。同时,作者还介绍了一种全局性能相同的子类应用于极小极大博弈上的积分二次约束理论。实证结果表明,交替更新加速了生成对抗网络的训练,但仅在同步算法上使用乐观主义才有帮助。
Feb, 2021
通过算法稳定性的视角,对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析,建立了稳定性与泛化能力之间的定量联系。在凸凹情形下,稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。
May, 2021
提出了一个新的极小极大优化框架 GDA-AM,利用 Anderson 混合算法加速 GDA 收敛,解决了同时使用 GDA 时出现的发散问题,并以理论和实验的方式证明该算法在较温和的条件下可以实现二次问题的全局收敛,并改进了 GAN 训练。
Oct, 2021
本文研究了使用交替GDA和平滑GDA算法解决纳什均衡问题的收敛速度,证明了在满足 Polyak-Lojasiewicz 条件时,这两种算法分别需要 O(κ²ε⁻²) 和 O(κε⁻²) 次迭代即可找到 ε-极小点,而在类似条件下,这是目前最佳的单循环算法复杂度结果。实验证明这些算法在生成对抗网络训练和非线性回归中具有较高的效率。
Dec, 2021
本文探讨了梯度下降上升(GDA)方法在生成对抗网络中极小化最大化优化问题的收敛性质及实现方式,研究表明GDA在本地条件数为y时的步长比至少需要为θ(Kappa),并支持在随机GDA和额外梯度方法(EG)中的应用。
Jul, 2022
研究了使用基于核的判别器训练生成式对抗网络的梯度下降-上升过程,通过线性化的非线性动态系统描述方法,探究了学习率、正则化和核判别器带宽对该过程的局部收敛速度的影响,提出了系统收敛、振荡和发散的阶段转换点,并通过数值模拟验证了结论。
May, 2023
通过对无监督领域适应和生成对抗网络进行功能分析,本研究理论上解决了激烈优化所带来的不稳定性问题,展示了梯度下降法在连续函数和概率测度的无穷维空间中对极小极大问题的收敛特性,并讨论了生成对抗网络和无监督领域适应的相关条件及稳定化技术。
Dec, 2023