Jun, 2023

最大熵异质代理镜像学习

TL;DR本文提出了一种新的理论框架MEHAML,利用最大熵原理设计最大熵MARL Actor-Critic算法,证明了所得算法具有联合最大熵目标的单调改进和收敛到量子响应平衡(QRE)的所需属性,实验结果表明,在三个基准测试中,HASAC(软Actor-Critic)的性能超越了HATD3、HAPPO、QMIX和MAPPO等强基线方法,成为了新的最优方法。