机器学习算法在数值均场控制和博弈中的收敛性分析：第 Ⅱ 部分 -- 有限时间域情形

Aug, 2019

机器学习算法在数值均场控制和博弈中的收敛性分析：第 Ⅱ 部分 -- 有限时间域情形

Convergence Analysis of Machine Learning Algorithms for the Numerical Solution of Mean Field Control and Games: II -- The Finite Horizon Case

PDF

René Carmona, Mathieu Laurière

TL;DR提出了两种基于神经网络参数的损失函数的数值方法，用于有限时间视野下的 McKean-Vlasov 动力学的最优控制，为确定如何近似于原始均场控制问题的解，引入了一种新的优化问题，并提供了误差率的严格说明。

Abstract

We propose two numerical methods for the optimal control of McKean-Vlasov dynamics in finite time horizon. Both methods are based on the introduction of a suitable loss function defined over the parameters of a <

optimal control mckean-vlasov dynamics numerical methods neural network stochastic gradient descent

发现论文，激发创造

均场博弈和均场类型控制的数值方法

本文回顾了关于数值方法在 Mean Field Games 及 Mean Field Control 类型问题中应用的各种方面，包括基于线性二次型、偏微分方程数值方案、Kolmogorov-Fokker-Planck 方程优化技巧、基于单调算子视角的方法以及依赖于机器学习工具的随机方法等。

Jun, 2021

McKean-Vlasov 动力学与均场博弈控制

本文讨论并比较了两种研究方法，以处理随机微分博弈的渐近区域，这种博弈有有限个玩家，但玩家数量趋近于无穷。这两种方法在优化和极限通道的顺序上有所不同，一种是指平均场博弈，另一种是控制 McKean-Vlasov 类型的优化问题。这两个问题都涉及到前向后向随机微分方程的分析，其系数取决于解的边缘分布，我们通过研究相应的前向后向系统来说明两种方法的性质和解决方案的差异。文章还阐述了一般性的结果和特定的例子，特别是当代价函数是线性二次型时。

Oct, 2012

通过松弛最优控制的均场神经 ODE

本文介绍了一种基于控制论、深度学习和统计抽样理论的框架，来研究深度神经网络和神经 ODE 模型，包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题，并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代次数相关的显式收敛速率和量化一般化误差界限。

Dec, 2019

前向 - 后向随机微分方程和可控的麦克汉 - 弗拉索夫动力学

通过概率分析，研究了 McKeanVlasov 型非线性随机动力系统的最优控制问题，给出了最优解的充分条件，并将其应用于含有均场交互的大规模随机博弈中。

Mar, 2013

用机器学习框架解决高维场均值博弈和场均值控制问题

本文提出了一种基于机器学习的灵活框架以数值解决潜在的平均场博弈和平均场控制问题，该框架避免使用空间离散化并利用拉格朗日和欧拉观点相结合的方法来近似解决高维问题。在标准工作站上近似解决了 100 维最优传输和人群运动问题，并在二维上进行了欧拉求解器的验证。这些结果为先前无法通过现有数值方法处理的 MFG 和 MFC 模型的应用开启了大门。

Dec, 2019

深度学习的均值场最优控制公式

这篇文章介绍了将深度学习中的群体风险最小化问题作为均场最优控制问题进行数学公式化。通过引用均场 Pontryagin 的最大值原理，确立了种群和经验学习问题之间的一些定量关系，为探究最优控制和深度学习之间的算法和理论联系奠定了数学基础。

Jul, 2018

均场最优控制

本研究引入了平均场最优控制的概念，该概念是将建模多代理交互的 ODE 约束下的有限维最优控制问题与约束为 Vlasov 类型的 PDE 的无限维最优控制问题的严格极限过程。通过考虑损失函数中 $L^1$ -norm 项，惩罚广泛的控制组，同时促进其稀疏性，我们考虑关注政策制定者受到最佳策略的制约，以实现其与个体群体之间最简洁的相互作用。

Jun, 2013

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

均场博弈：有限差分法的收敛性

介绍了 J-M Lasry 和 P-L Lions 提出的描述随机微分博弈问题的极限行为的均场类型模型，作者在先前的作品中提出了这些模型的稳态和演化版本的近似方法，并在各种假设下证明了这些方法的收敛定理。

Jul, 2012

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020