Sep, 2018

CM3:合作多目标多阶段多智能体强化学习

TL;DR本文提出了一种名为CM3的结构,包括单个代理目标达成先于多个代理协作的学习过程和一种新的多目标多代理政策梯度,具有局部信任分配的信用功能。该结构在解决多个多目标多代理问题方面具有明显优势。