Jun, 2022

基于最大熵的深度多智能体强化学习与混合动作空间

TL;DR提出了一种基于最大熵的深度多智能体混合软演员评论家算法(MAHSAC),该算法通过中心化训练但分散执行的范例来处理多智能体环境中的混合行动空间问题,在连续观察和离散行动空间的多智能体粒子世界中运行实验,结果表明 MAHSAC 在培训速度、稳定性和抗干扰能力方面表现良好,并且在合作场景和竞争场景中胜过现有的独立深度混合学习方法。