稳定非凸非凹训练的线性插值方法

Oct, 2023

稳定非凸非凹训练的线性插值方法

Stable Nonconvex-Nonconcave Training via Linear Interpolation

Thomas Pethick, Wanyun Xie, Volkan Cevher

TL;DR该论文从线性插值的角度对神经网络训练的稳定性进行了理论分析，提出了一种基于非扩张算子理论的优化方法——放松近似近端点（Relaxed Approximate Proximal Point，RAPP），该方法扩展并优化了Lookahead算法，并通过对生成对抗网络的实验证明了RAPP和Lookahead中线性插值的优势。

Abstract

This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the →

发现论文，激发创造

训练更快，泛化更好: 随机梯度下降的稳定性

本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差，提供了新的对于随机梯度方法多周期泛化性能好的解释，对于神经网络的训练也有新的稳定性解释。

Sep, 2015

鞍点问题中的乐观镜像下降：额外走(梯度)一英里

本文研究了一类具有一致性属性的非单调问题中，优化镜像下降法（OMD）的收敛性和优化方式。分析表明，OMD可以解决这些问题并推广了先前的结果，为建立凸凹博弈以外的收敛性提供了具体进展。在一系列 GAN 模型上的数值实验结果验证了分析的可行性。

Jul, 2018

极大极小优化的最终迭代收敛速率

该研究论文阐述了针对非凸函数最优化问题中的后向迭代收敛的挑战性，介绍了哈密顿梯度下降算法以及协作优化算法，并证明了这些算法在某些情况下表现出线性收敛性。

Jun, 2019

生成对抗网络中自适应梯度算法的深入理解

本文旨在从理论和实证角度分析适应性梯度算法在解决非凸非凹极小极大问题中的性能，并提出了一种名为乐观阿达格勒的自适应变体算法，证明了非凸非凹极小极大优化的自适应复杂性，并在生成对抗网络培训中显示出优越性能。

Dec, 2019

同时训练，更好地泛化：基于梯度的极小极大学习器的稳定性

本文研究发现优化算法在训练最大-最小学习问题的生成式对抗网络中发挥了关键作用，涉及泛化性能和算法稳定性等方面，而梯度下降上升算法则是其中一种表现优越的算法。

Oct, 2020

结构化非凸-非凹二次规划的高效优化方法

通过提出一种新的结构化非凸-非凹 min-max 优化问题类，引入了一个泛化的外推方法，该方法证明收敛到一个稳定点。这种算法不仅适用于欧几里得空间，还适用于一般的l p-norm有限维实向量空间，同时对其在随机oracle条件下的稳定性和样本复杂度提供了边界。

Oct, 2020

随机梯度下降法在极小极大问题中的稳定性和泛化性

通过算法稳定性的视角，对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析，建立了稳定性与泛化能力之间的定量联系。在凸凹情形下，稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。

May, 2021

单调线性插值的高原——深度网络损失景观的"有偏"视角

探讨神经网络中单调线性插值现象(monotonic linear interpolation)的相关性、对权重和偏差进行插值对最终输出的影响、在深度神经网络中存在一个长期平稳期等问题。

Oct, 2022

神经网络的凸优化景观：通过Lasso模型表征全局最优和稳定点

通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程，并对其最优权重提供更好的解释，我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练，证明了这些网络可以表达为一个有限维的凸规划问题，其中包括促使稀疏性的正则化项，构成Lasso的变种。通过大量的数值实验，我们展示了凸模型可以胜过传统非凸方法，并且对于优化器的超参数并不敏感。

Dec, 2023

单变量ReLU网络中稳定的极小值无法过拟合：大步长的泛化

我们研究了具有噪声标签的一元非参数回归问题中两层ReLU神经网络的泛化。我们提出了一种新的局部极小值泛化理论，证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下，梯度下降算法可以找到表示平滑函数的局部极小值，并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证，表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究，并且证明了没有正则化的ReLU神经网络可以在非参数回归中实现接近最优的速率。

Jun, 2024