本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文研究了一类具有一致性属性的非单调问题中,优化镜像下降法(OMD)的收敛性和优化方式。分析表明,OMD可以解决这些问题并推广了先前的结果,为建立凸凹博弈以外的收敛性提供了具体进展。在一系列 GAN 模型上的数值实验结果验证了分析的可行性。
Jul, 2018
该研究论文阐述了针对非凸函数最优化问题中的后向迭代收敛的挑战性,介绍了哈密顿梯度下降算法以及协作优化算法,并证明了这些算法在某些情况下表现出线性收敛性。
Jun, 2019
本文旨在从理论和实证角度分析适应性梯度算法在解决非凸非凹极小极大问题中的性能,并提出了一种名为乐观阿达格勒的自适应变体算法,证明了非凸非凹极小极大优化的自适应复杂性,并在生成对抗网络培训中显示出优越性能。
Dec, 2019
本文研究发现优化算法在训练最大-最小学习问题的生成式对抗网络中发挥了关键作用,涉及泛化性能和算法稳定性等方面,而梯度下降上升算法则是其中一种表现优越的算法。
Oct, 2020
通过提出一种新的结构化非凸-非凹 min-max 优化问题类,引入了一个泛化的外推方法,该方法证明收敛到一个稳定点。这种算法不仅适用于欧几里得空间,还适用于一般的l p-norm有限维实向量空间,同时对其在随机oracle条件下的稳定性和样本复杂度提供了边界。
通过算法稳定性的视角,对凸凹和非凸非凹情形下的随机梯度方法在极小极大问题中的泛化能力进行了全面的分析,建立了稳定性与泛化能力之间的定量联系。在凸凹情形下,稳定性分析表明了随机梯度下降算法对于平滑和非平滑的极小极大问题皆可达到最优的泛化界。我们还确定了泛函弱凸弱凹和梯度占主导地位的问题的泛化界。
May, 2021
探讨神经网络中单调线性插值现象(monotonic linear interpolation)的相关性、对权重和偏差进行插值对最终输出的影响、在深度神经网络中存在一个长期平稳期等问题。
Oct, 2022
通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程,并对其最优权重提供更好的解释,我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练,证明了这些网络可以表达为一个有限维的凸规划问题,其中包括促使稀疏性的正则化项,构成Lasso的变种。通过大量的数值实验,我们展示了凸模型可以胜过传统非凸方法,并且对于优化器的超参数并不敏感。
Dec, 2023
我们研究了具有噪声标签的一元非参数回归问题中两层ReLU神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的ReLU神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024