关于均场极限下两层ReLU网络梯度下降训练的收敛性
本文分析了使用随机梯度下降(SGD)训练包含ReLU激活函数的两层前馈神经网络中所谓的“恒等映射”结构和高斯分布输入的情况下SGD收敛的机理,并通过实验证明使用该结构的多层神经网络具有比普通神经网络更好的性能。
May, 2017
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层ReLU网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层ReLU网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
本文研究表明,在神经网络中使用ReLU激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
本文研究采用梯度下降算法学习双层神经网络,证明其具有多项式样本和多项式时间复杂度,且可以学习到真实网络,而任何具有多项式样本的核方法均具有Omega误差下限。
Jul, 2020
本文研究两层神经网络的ReLU激活函数和平方损失函数的优化方法,利用一种交替迭代算法寻找损失函数的关键点,实验结果显示该算法能够比随机梯度下降和Adam优化器更快、更准确地求解深度值,并且该方法没有调参困扰。
Apr, 2023
本文探讨使用随机梯度下降法训练具有ReLU网络的单隐藏层多元网络应用于二次损失下所得到解的性质,得到其Laplacian的类似结果。结果表明,当步长增大时,网络映射函数二阶导数有界性的界限变小,即使用更大的步长会导致更平稳的预测器,最后,本文证明了如果函数在Sobolev意义下足够平滑,则可以使用相应于梯度下降稳定解的ReLU浅层网络任意逼近。
Jun, 2023
本文研究了采用权重衰减正则化的两层ReLU网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过O(√log n)的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在合理假设下,随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点,此结果相对现有结果而言具有指数级改进,并对解释局部梯度方法为何行之有效提供了新的见解。
Feb, 2024
本文研究了使用ReLU激活函数的两层全连接神经网络的最小二乘回归问题,提出了一种在有限宽度的ReLU网络中实现良性过拟合的理论框架。通过对过度风险的分解,我们能够避免均匀收敛的陷阱,并证明了在数据拟合过程中,相同设置下的训练网络会过拟合数据。这一研究为各类回归函数提供了新的理解和策略。
Oct, 2024
本文针对训练机器学习模型,特别是神经网络中存在的非凸优化问题进行了研究,强调了使用凸优化公式的必要性。作者提出了一种将无限宽度的两层ReLU网络训练问题重构为一个有限维度空间的凸完全正程序的方法,并引入了一种半正定松弛来提高计算效率。研究结果表明,该松弛在分类任务上的测试准确率表现优异,显示了其应用潜力。
Oct, 2024