理解生成对抗网络中的过度参数化
本文通过分析神经网络在超参数化情况下的学习理论,证明了神经网络能够通过SGD算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外,本文还建立了一个神经网络的二次近似概念,并将其与如何逃离鞍点的SGD理论联系起来。
Nov, 2018
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
本文研究神经网络架构如何影响训练速度,引入“梯度混乱”概念来分析。实验结果表明,增加神经网络宽度可以降低梯度混乱从而提高模型训练效率,而增加深度则会使训练效率降低。
Apr, 2019
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
通过分析过度参数化的深层残差网络,我们证明了梯度下降学习的网络类是整个神经网络函数类的一个子集,这个子集足够大以保证小的训练误差和测试误差,并且此类网络具有小的泛化差距,这提供了残差网络优于非残差网络的解释。
Oct, 2019
本文研究发现优化算法在训练最大-最小学习问题的生成式对抗网络中发挥了关键作用,涉及泛化性能和算法稳定性等方面,而梯度下降上升算法则是其中一种表现优越的算法。
Oct, 2020
本文探讨了梯度下降上升(GDA)方法在生成对抗网络中极小化最大化优化问题的收敛性质及实现方式,研究表明GDA在本地条件数为y时的步长比至少需要为θ(Kappa),并支持在随机GDA和额外梯度方法(EG)中的应用。
Jul, 2022
研究了使用基于核的判别器训练生成式对抗网络的梯度下降-上升过程,通过线性化的非线性动态系统描述方法,探究了学习率、正则化和核判别器带宽对该过程的局部收敛速度的影响,提出了系统收敛、振荡和发散的阶段转换点,并通过数值模拟验证了结论。
May, 2023
对深度神经网络(DNN)进行逆向训练以提高其对敌对扰动的鲁棒性是一种被广泛采用的方法。然而,经验观察到,对于超参数化网络的逆向训练往往存在“鲁棒过拟合”问题:它可以实现接近于零的逆向训练错误,但鲁棒性的泛化性能不佳。本文从逼近的角度对逆向训练中过拟合的DNN的泛化能力进行了理论研究,得出了三个主要结果:i)对于分类问题,我们通过构造证明在超参数化的DNNs上存在无穷多的逆向训练分类器,可以获得任意小的逆向训练错误(过拟合),同时在数据质量、明显分离和扰动水平等方面满足一定条件时可以获得良好的鲁棒泛化误差。ii)只要目标函数足够平滑,线性超参数化(即参数数量略大于样本大小)就足以确保这种存在性。iii)对于回归问题,我们的结果证明,在逆向训练中存在无穷多的超参数化过拟合DNNs,可以实现几乎最优的标准泛化误差收敛速率。总体来说,我们的分析指出,鲁棒过拟合是可以避免的,但所需的模型容量将取决于目标函数的平滑程度,而鲁棒泛化差距是不可避免的。我们希望我们的分析能够更好地从逼近的角度理解DNNs的鲁棒性的数学基础。
Jan, 2024