Jul, 2024

统一的连续时间q学习方法用于均场博弈和均场控制问题

TL;DR该论文从代理人的视角研究了含有均场跳扩散模型的连续时间Q学习。通过引入解耦形式的集成Q函数(解耦Iq函数)并与价值函数建立其鞅特性,该论文为均场博弈(MFG)和均场控制(MFC)问题提供了统一的策略评估准则。此外,根据解决MFG或MFC问题的任务,我们可以通过不同的方式使用解耦Iq函数学习均场平衡策略或均场最优策略。因此,该论文通过利用源自均场交互的所有测试策略,提出了适用于MFG和MFC问题的统一Q学习算法。通过具体的跳扩散设置示例,在LQ框架内外,我们可以获得解耦Iq函数和价值函数的确切参数化,并从代理人的视角展示了令人满意的算法性能。