Jan, 2024

AgentMixer: 多智能体相关策略分解

TL;DR通过引入策略修改,构建联合完全可观察策略的非线性组合,以实现分散执行,并联合训练联合策略和个体策略以确保一致性,理论上证明了该方法收敛到一个近似关联均衡,并在三个 MARL 基准上展示了强大的实验表现。