Jun, 2024

利用信念地图辅助训练的多智能体合作游戏

TL;DR多智能体系统中,使用消息传递系统共享本地观察以获得全局情境感知,进而影响智能体间协作的有效性。本文提出 Belief-map Assisted Multi-agent System (BAMS),利用神经符号信念映射来增强训练,通过简单的符号表示实现从反馈到学习的额外通道。与强化学习中来自奖励的间歇性和延迟反馈相比,信念映射提供更一致可靠的反馈,BAMS 模型在合作狩猎游戏中表现更好。实验结果显示,BAMS 减少了 66% 的训练周期,使用 BAMS 的智能体平均少完成了 34.62% 的步骤。