统一的连续时间q学习方法用于均场博弈和均场控制问题

Jul, 2024

统一的连续时间q学习方法用于均场博弈和均场控制问题

Unified continuous-time q-learning for mean-field game and mean-field control problems

Xiaoli Wei, Xiang Yu, Fengyi Yuan

TL;DR该论文从代理人的视角研究了含有均场跳扩散模型的连续时间Q学习。通过引入解耦形式的集成Q函数（解耦Iq函数）并与价值函数建立其鞅特性，该论文为均场博弈（MFG）和均场控制（MFC）问题提供了统一的策略评估准则。此外，根据解决MFG或MFC问题的任务，我们可以通过不同的方式使用解耦Iq函数学习均场平衡策略或均场最优策略。因此，该论文通过利用源自均场交互的所有测试策略，提出了适用于MFG和MFC问题的统一Q学习算法。通过具体的跳扩散设置示例，在LQ框架内外，我们可以获得解耦Iq函数和价值函数的确切参数化，并从代理人的视角展示了令人满意的算法性能。

Abstract

This paper studies the continuous-time q-learning in the mean-field jump-diffusion models from the representative agent's perspective. To overcome the challenge when the population distribution may not be directl

发现论文，激发创造

无模型均场强化学习：均场MDP和均场Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

利用Q-learning的平均场控制协同多智体强化学习：收敛性和复杂度分析

该研究借助平均场控制方法，针对多智能体强化学习面临的高维诅咒问题，提出了一种基于无模型核心的Q学习算法。实验结果表明，本算法在大规模多智能体网络拥塞问题中，具有较好的解决性能。

Feb, 2020

学习均场博弈的通用框架

本文提出了一种基于 General Mean-Field Game(GMFG) 的研究框架，通过对包括强化学习在内的算法进行探究，解决大规模人口随机博弈中的学习和决策问题，实现了Nash均衡。同时，通过实验证明，本文提出的GMF-V-Q和GMF-P-TRPO两种算法在多智能体强化学习的收敛性、准确度和稳定性上，均表现出更高的效率和更好的性能。

Mar, 2020

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

连续时间下的q学习

本研究基于王等人2020年提出的熵正则探索性扩散过程公式，研究了连续时间下的Q学习，构建了独立于时间离散化的q函数学习理论，并应用该理论设计了actor-critic算法来解决强化学习问题，同时通过模拟实验验证了算法性能。

Jul, 2022

随机博弈的高效Q学习

本文提出了新的高效Q学习动态应用于随机博弈，使智能体能够遵循阶段游戏中的对数线性学习动态，通过逐步迭代估计Q函数，实现高效平衡，并通过逐渐减小步长的方式使其收敛，同时还研究了 softmax 响应在此过程中产生的近似误差。

Feb, 2023

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了Reinforcement Learning在Mean-Field Control和Mean-Field Game中的统计效率，提出了基于Optimistic Maximal Likelihood Estimation的算法，并通过建立新概念Mean-Field Model-Based Eluder Dimension来解决一系列问题。同时，该研究结果展示了单智能体RL、MFC和MFG在样本效率方面存在根本差异。

May, 2023

McKean-Vlasov控制问题的连续时间q学习

本文研究连续时间McKean-Vlasov控制问题中的q-learning方法，探究了其定义及两种不同的q函数，提出了相应的学习算法，并在金融应用中进行了模拟实验。

Jun, 2023

基于Tsallis熵的连续时间q-Learning跳扩散模型

本文探讨了基于Tsallis熵正规化的连续时间强化学习与控制化跳扩散模型，包括q函数（Q函数的连续时间对应）和q学习算法。我们建立了q函数在Tsallis熵下的鞅特征，并根据拉格朗日乘子是否可以明确推导，设计了两种不同的q学习算法。最后，我们应用这些算法解决了优化投资组合清算问题和非线性控制问题，并验证了优化策略的出色表现。

Jul, 2024

基于随机半梯度下降的平均场博弈学习与人口感知函数逼近

本研究解决了传统平均场博弈学习方法在效率和稳定性方面的不足，提出了一种在线学习方法SemiSGD，能够实现代理同时更新策略与人口估计。该方法提供了新的视角，将价值函数和人口分布视为统一参数，并实现了在连续状态-动作空间上首个支持人口感知的线性函数逼近，具有有限时间收敛性和逼近误差分析。

Aug, 2024