利用凸神经网络打破维度诅咒
该研究通过对矩阵分解、张量分解和深度神经网络训练等问题的非凸优化问题的充分条件分析,提出了一种通用框架,能够在任意初始的情况下使用纯局部下降算法找到全局最小值,为深度神经网络的优化提供了理论支持和指导。
Jun, 2015
通过对具有ReLU激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足“扩展特征矩阵”的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
本文探讨了神经网络架构的泛化能力,发现训练和泛化在整洁和结构化的数据集上很容易,在嘈杂和非结构化的数据集上则更难。通过使用“信息”空间和“噪声”空间,本文证明了即使是常数宽度的神经网络,对于足够好的数据集也可以证明泛化。
Jun, 2019
本研究通过凸优化理论分析发现,ReLU神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
通过使用凸优化理论和稀疏恢复模型来改进神经网络的训练过程,并对其最优权重提供更好的解释,我们的研究侧重于以分段线性激活函数构建的两层神经网络的训练,证明了这些网络可以表达为一个有限维的凸规划问题,其中包括促使稀疏性的正则化项,构成Lasso的变种。通过大量的数值实验,我们展示了凸模型可以胜过传统非凸方法,并且对于优化器的超参数并不敏感。
Dec, 2023
该研究解决了训练神经网络的非凸特性给优化模型带来的挑战。通过提出一种递归公式,该方法针对多种激活函数(如凸形和S形)提供了紧致的凸化,以便更高效地计算分离超平面并处理非多面体情况。实验结果表明,这些凸近似方法在应用中具有显著的实证优势。
Oct, 2024
本研究解决了并行正齐次神经网络的泛化界限推导问题,提出了一种新的框架,通过将非凸经验风险最小化问题与相关的凸优化问题联系起来,提供了可实现的全局下界。该框架的应用使得在多种模型中实现了样本复杂度与网络宽度几乎线性缩放的泛化界限,具有重要的理论和实际意义。
Nov, 2024