通过松弛最优控制的均场神经 ODE

Dec, 2019

Mean-Field Neural ODEs via Relaxed Optimal Control

Jean-François Jabir, David Šiška, Łukasz Szpruch

TL;DR本文介绍了一种基于控制论、深度学习和统计抽样理论的框架，来研究深度神经网络和神经 ODE 模型，包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题，并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代次数相关的显式收敛速率和量化一般化误差界限。

Abstract

We develop a framework for the analysis of deep neural networks and neural ODE models that are trained with stochastic gradient algorithms. We do that by identifying the connections between control theory, deep l

neural networks stochastic gradient algorithms mean-field langevin dynamics generalisation error convergence rate

发现论文，激发创造

深度学习的均值场最优控制公式

这篇文章介绍了将深度学习中的群体风险最小化问题作为均场最优控制问题进行数学公式化。通过引用均场 Pontryagin 的最大值原理，确立了种群和经验学习问题之间的一些定量关系，为探究最优控制和深度学习之间的算法和理论联系奠定了数学基础。

Jul, 2018

均场最优控制

本研究引入了平均场最优控制的概念，该概念是将建模多代理交互的 ODE 约束下的有限维最优控制问题与约束为 Vlasov 类型的 PDE 的无限维最优控制问题的严格极限过程。通过考虑损失函数中 $L^1$ -norm 项，惩罚广泛的控制组，同时促进其稀疏性，我们考虑关注政策制定者受到最佳策略的制约，以实现其与个体群体之间最简洁的相互作用。

Jun, 2013

均场 Langevin 动力学的收敛性：时间和空间离散化、随机梯度和方差缩减

本文提出了一个新的框架来证明具有有限粒子逼近，时间离散化和随机梯度逼近误差的 MFLD 的混沌传播具有时间一致性，并在学习问题和不同梯度估计器的广泛范围内建立了量化的收敛速率保证，包括 SGD 和 SVRG 算法。

Jun, 2023

机器学习算法在数值均场控制和博弈中的收敛性分析：第 Ⅱ 部分 -- 有限时间域情形

提出了两种基于神经网络参数的损失函数的数值方法，用于有限时间视野下的 McKean-Vlasov 动力学的最优控制，为确定如何近似于原始均场控制问题的解，引入了一种新的优化问题，并提供了误差率的严格说明。

Aug, 2019

神经网络的平均场 Langevin 动力学和能量景观

研究使用梯度算法时非凸问题的抽象理论，利用无穷维度状态空间和概率密度函数最小化能量函数，并研究该梯度流的收敛性。

May, 2019

改进的均场神经网络的粒子逼近误差

通过改进粒子近似误差的对数 Sobolev 不等式常数依赖性，我们展示了 MFLD 的收敛性提高、对均场稳态分布的采样保证以及粒子复杂度的统一随时间的 Wasserstein 传播。

May, 2024

均场 Langevin 动力学的凸分析

该研究在连续和离散时间设置下，针对正则化的目标函数给出了关于均值场 Langevin 动力学的简洁、自包含的收敛速率分析。作者证明了命题的关键在于该理论的复合推广的 Gibbs 分布。作者发现该分布与经验风险最小化中的对偶间隙存在关联，这可能使算法收敛的经验评估更加有效。

Jan, 2022

通过神经 ODEs 和控制理论揭示 LLM 机制

此研究提出了一种新颖的方法，利用神经常微分方程（Neural ODEs）揭示大型语言模型（LLMs）中输入和输出之间错综复杂的关系，并采用稳健控制来微调输出以满足预定义的标准。该方法的核心是将 LLM 的输入和输出转换为低维的潜在空间，从而便于详细研究 LLM 内的信息处理路径。神经常微分方程在这一研究中发挥关键作用，提供了一个动态模型，捕捉了 LLM 中数据的连续演化。此外，稳健控制机制被应用于策略性地调整模型的输出，确保其不仅保持高质量和可靠性，还符合特定的性能标准。神经常微分方程和稳健控制的融合在 LLM 可解释性方面代表了重大进展，提供了一个综合框架，阐明了这些复杂模型以前不透明的机制。我们的实证结果验证了这种整合方法的有效性，为可解释 AI 领域做出了重大贡献，将先进的机器学习技术与对 AI 输出的透明度和控制的重要需求相结合。

Jun, 2024

神经平均场动力学的网络扩散

本文提出了一种基于神经平均场动力学的新型学习框架，用于解决网络扩散的推理和估计问题，该框架利用 Mori-Zwanzig 形式主义从节点感染概率的精确演化获得，形成一个高度结构化和可解释的 RNN，可用于联合学习扩散网络的结构和感染概率的演化，这是影响最大化等重要下游应用的基石。此外，本文还建立了参数学习和最优控制之间的联系。实证研究表明，我们的方法具有多样性和鲁棒性，可以在合成数据和真实世界数据上显著优于现有方法的准确性和效率。

Jun, 2020

多层神经网络均值场极限的严格框架

本研究发展了多层神经网络的数学严格框架，探究其在平均场条件下的学习轨迹，并证明了一些神经网络的性质，包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。

Jan, 2020