Jul, 2021

高效的基于模型的多智能体平均场强化学习

TL;DR提出基于模型的强化学习算法 $ ext {M}^3 ext {-UCRL}$ 来解决具有未知系统动态的多智能体系统的协同最大化奖励问题,并且使用平均场类型分析获得针对 $ ext {MFC}$ 的前沿纠悔界,最终在控制具有无限智能体的群体运动问题上进行了实验。