Sep, 2021

协作异构多智能体强化学习的均场控制近似

TL;DR本论文介绍了平均场控制理论(Mean field control)在解决包含$N_{pop}$个异构agents的协作多智能体强化学习问题中的应用,提出了三个不同的情况,分别考虑了错误率有不同的误差上限。最后,提出一个基于 自然策略梯度 (Natural Policy Gradient)的算法以收敛到MARL的最优策略。