多层神经网络均值场极限的严格框架
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了SGD的收敛性。
Apr, 2018
本文发现随着神经元数量的增加,经过适当的缩放和随机梯度下降动力学,多层神经网络的行为变得独立于神经元数量,发展了一个形式体系来捕捉这种多神经元限制行为,相关实验证实了这种独立性的存在。
Feb, 2019
本文探讨利用随机梯度下降学习两层神经网络,将神经网络权重的演化近似为概率分布在R^D空间中的演化,从而得到概率分布的梯度流方程.我们分析了隐藏单元数量与数据规律性之间的相关性,扩展了此结果到无界激活函数的情况,将此结果应用到噪声随机梯度下降过程中,并展示了如何通过平均场分析特殊限制条件下的核岭回归。
Feb, 2019
本文在均场条件下证明了三层无正则化前馈神经网络的全局收敛性,首先建立起三层网络的均场极限,并证明了在合适的收敛模式假设和正则性假设下具有全局收敛保证。
May, 2021
该研究通过梯度流优化模型,研究宽神经网络中的特征学习和训练损失收敛问题,证明了一定条件下训练损失会以线性速率收敛于零,并展示了该模型的学习特性和推广能力。
Apr, 2022
研究了有限宽度效应及特征学习在神经网络中的动力学特性,通过动力学平均场理论描述了无穷宽深度神经网络内核和预测动力学,并证明了特征学习可以降低终极NTK和终极网络预测的方差。
Apr, 2023
通过对无限宽度极限进行实证研究,我们的结果表明:无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题,进而对于无限宽度极限的实际相关性提出了质疑。
Sep, 2023
在这篇论文中,我们通过核方法的视角研究了两层神经网络在均场极限下的特征学习能力。我们利用两个时间尺度的极限来聚焦于第一层产生的核动态,从而将学习问题转化为对内在核的最小化问题。我们还展示了均场Langevin动力学的全局收敛性,并推导了时间和粒子离散化误差。此外,我们证明了两层神经网络可以比任何核方法更高效地学习多个再现核希尔伯特空间的并集,并且神经网络可以获得与目标函数对齐的数据相关核。我们还开发了一种标签噪声过程,该过程收敛到全局最优解,并展示了自由度作为一种隐式正则化现象。
Mar, 2024