Aug, 2022

异质代理镜像学习:协作多智能体强化学习的一系列解决方案

TL;DR本文介绍了一种名为异构代理镜像学习(HAML)的新型框架,该框架提供了一种通用的 MARL 算法设计模板,解决了在奖励单调性或收敛时的非最优性能问题,通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性,并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。