神经网络的平均场 Langevin 动力学和能量景观

May, 2019

神经网络的平均场 Langevin 动力学和能量景观

Mean-Field Langevin Dynamics and Energy Landscape of Neural Networks

Kaitong Hu, Zhenjie Ren, David Siska, Lukasz Szpruch

TL;DR研究使用梯度算法时非凸问题的抽象理论，利用无穷维度状态空间和概率密度函数最小化能量函数，并研究该梯度流的收敛性。

Abstract

Our work is motivated by a desire to study the theoretical underpinning for the convergence of stochastic gradient type algorithms widely used for non-convex learning tasks such as training of neural networks. Th

stochastic gradient algorithms non-convex learning probability measures mean-field langevin dynamics convergence

发现论文，激发创造

均场 Langevin 动力学的收敛性：时间和空间离散化、随机梯度和方差缩减

本文提出了一个新的框架来证明具有有限粒子逼近，时间离散化和随机梯度逼近误差的 MFLD 的混沌传播具有时间一致性，并在学习问题和不同梯度估计器的广泛范围内建立了量化的收敛速率保证，包括 SGD 和 SVRG 算法。

Jun, 2023

改进的均场神经网络的粒子逼近误差

通过改进粒子近似误差的对数 Sobolev 不等式常数依赖性，我们展示了 MFLD 的收敛性提高、对均场稳态分布的采样保证以及粒子复杂度的统一随时间的 Wasserstein 传播。

May, 2024

均场 Langevin 动力学的凸分析

该研究在连续和离散时间设置下，针对正则化的目标函数给出了关于均值场 Langevin 动力学的简洁、自包含的收敛速率分析。作者证明了命题的关键在于该理论的复合推广的 Gibbs 分布。作者发现该分布与经验风险最小化中的对偶间隙存在关联，这可能使算法收敛的经验评估更加有效。

Jan, 2022

通过松弛最优控制的均场神经 ODE

本文介绍了一种基于控制论、深度学习和统计抽样理论的框架，来研究深度神经网络和神经 ODE 模型，包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题，并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代次数相关的显式收敛速率和量化一般化误差界限。

Dec, 2019

神经梯度下降上升的均场分析：应用于功能条件矩方程

通过研究定义在无限维函数类上的极小极大优化问题，我们限定函数在过度参数化的两层神经网络类上，并研究（i）梯度下降 - 上升算法的收敛性和（ii）神经网络的表示学习。

Apr, 2024

两层神经网络的平均场理论：无维界限和核极限

本文探讨利用随机梯度下降学习两层神经网络，将神经网络权重的演化近似为概率分布在 R^D 空间中的演化，从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性，扩展了此结果到无界激活函数的情况，将此结果应用到噪声随机梯度下降过程中，并展示了如何通过平均场分析特殊限制条件下的核岭回归。

Feb, 2019

高斯混合分类中随机梯度下降的动力学平均场理论

通过使用动力学均场理论的方法，我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限，称之为随机梯度流，并探讨了算法控制参数对其在损失函数空间中的导航的影响。

Jun, 2020

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018

双层神经网络中二阶动态的全局收敛性

通过 Lyapunov 法证明了在 momentum 策略下的 fully connected neural networks 的 heavy ball method 对应的二阶梯度下降算法在平均场极限下收敛于全局最优解。

Jul, 2020

变压器学习上下文中的非线性特征：基于注意力场景的非凸平均场动力学

通过对基于 Transformer 架构的大型语言模型进行研究，本文证明了在均场动力学中，无论高度非凸的参数分布的无限维损失曲面，均很温和，而 Wasserstein 梯度流几乎总是避免鞍点，这是对均场动力学的第一次鞍点分析，相关技术具有独立的研究价值。

Feb, 2024