ICLRSep, 2022

更集中化的训练,仍分散化的执行:多智能体条件策略分解

TL;DR本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家,并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。