具有ReLU激活函数的双层神经网络的收敛性分析
研究2层ReLU网络的理论性质,使用梯度下降训练以模仿具有相同结构和固定参数的教师网络的输出,证明其具有解析梯度公式,进而证明了关键点和收敛行为,重点是对于大量Relu节点的网络,如果权重的标准差上界为$ O(\epsilon/\sqrt{d}) $,则初始随机化权重的微小扰动将导致对$w^*$(或其置换)的收敛,这种现象在物理学中称为自发对称破缺(SSB)。
Mar, 2017
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了SGD的收敛性。
Apr, 2018
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层ReLU网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
本文研究表明,在神经网络中使用ReLU激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
在大规模数据训练下,研究了超参数化两层神经网络在教师-学生的设置下的动态和表现,证明了SGD的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于SGD的性质,还取决于算法,模型架构和数据集的相互作用。
Jun, 2019
在均场模型下,用梯度下降训练双层ReLU网络时,我们描述了最小贝叶斯风险收敛的必要和充分条件。该条件不依赖于参数的初始化,只涉及神经网络实现的弱收敛,而不是其参数分布。
May, 2020
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入x是高斯分布的,目标y遵循多指数模型,并证明了当基于SGD和权重衰减进行训练时,NN的第一层权重将收敛于真实模型的向量u1,...,uk所张成的k维主子空间,从而建立了一个独立于NN宽度的一般化误差边界,并进一步证明了,使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标,其样本复杂度与d成线性关系,而不是通过核区域中的任何p次多项式的已知d奥米(p)样本要求,这表明在初始化时使用SGD训练的NNs可以胜过神经切向核。
Sep, 2022
本文研究两层神经网络的ReLU激活函数和平方损失函数的优化方法,利用一种交替迭代算法寻找损失函数的关键点,实验结果显示该算法能够比随机梯度下降和Adam优化器更快、更准确地求解深度值,并且该方法没有调参困扰。
Apr, 2023
通过在生成由NTK引起的再生核希尔伯特空间(RKHS)中结合降噪核近似和收敛性分析的方法,本研究对将随机梯度下降(SGD)算法应用于过参数化的两层神经网络的收敛速度进行了全面研究,以提供对SGD在过参数化的两层神经网络中收敛行为的深入理解,探索了核方法和优化过程之间复杂的相互作用,为神经网络的优化动力学和收敛性质提供了启示。研究还在对神经元数量的约束上取得了重要进展,将其从指数关系减少到多项式关系,这一改进使神经网络的设计和扩展更加灵活,并将加深我们对用SGD训练的神经网络模型的理论理解。
Jul, 2024
本研究解决了在过参数化设置下,传统的梯度下降法在样本大小和Gram矩阵依赖性差导致训练缓慢的问题。我们提出了一种新的改进学习率方法,使其在L2回归问题中从$\mathcal{O}(\lambda_0/n^2)$提升到$\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$,并将其扩展至物理信息神经网络,展示了更快的收敛速度。这一发现将提高PINNs的训练效率,具有重要的应用潜力。
Aug, 2024