本文提出了一个新的框架来证明具有有限粒子逼近,时间离散化和随机梯度逼近误差的 MFLD 的混沌传播具有时间一致性,并在学习问题和不同梯度估计器的广泛范围内建立了量化的收敛速率保证,包括 SGD 和 SVRG 算法。
Jun, 2023
通过改进粒子近似误差的对数 Sobolev 不等式常数依赖性,我们展示了 MFLD 的收敛性提高、对均场稳态分布的采样保证以及粒子复杂度的统一随时间的 Wasserstein 传播。
May, 2024
该研究在连续和离散时间设置下,针对正则化的目标函数给出了关于均值场 Langevin 动力学的简洁、自包含的收敛速率分析。作者证明了命题的关键在于该理论的复合推广的 Gibbs 分布。作者发现该分布与经验风险最小化中的对偶间隙存在关联,这可能使算法收敛的经验评估更加有效。
Jan, 2022
本文介绍了一种基于控制论、深度学习和统计抽样理论的框架,来研究深度神经网络和神经 ODE 模型,包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题,并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代次数相关的显式收敛速率和量化一般化误差界限。
Dec, 2019
通过研究定义在无限维函数类上的极小极大优化问题,我们限定函数在过度参数化的两层神经网络类上,并研究(i)梯度下降 - 上升算法的收敛性和(ii)神经网络的表示学习。
Apr, 2024
本文探讨利用随机梯度下降学习两层神经网络,将神经网络权重的演化近似为概率分布在 R^D 空间中的演化,从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性,扩展了此结果到无界激活函数的情况,将此结果应用到噪声随机梯度下降过程中,并展示了如何通过平均场分析特殊限制条件下的核岭回归。
Feb, 2019
通过使用动力学均场理论的方法,我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限,称之为随机梯度流,并探讨了算法控制参数对其在损失函数空间中的导航的影响。
Jun, 2020
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。
Apr, 2018
通过 Lyapunov 法证明了在 momentum 策略下的 fully connected neural networks 的 heavy ball method 对应的二阶梯度下降算法在平均场极限下收敛于全局最优解。
Jul, 2020
通过对基于 Transformer 架构的大型语言模型进行研究,本文证明了在均场动力学中,无论高度非凸的参数分布的无限维损失曲面,均很温和,而 Wasserstein 梯度流几乎总是避免鞍点,这是对均场动力学的第一次鞍点分析,相关技术具有独立的研究价值。
Feb, 2024