May, 2023

集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中?

TL;DR本文介绍了一种名为CADP(Centralized Advising and Decentralized Pruning)的框架,解决了现有的CTDE框架无法充分利用全局信息的问题,在保证了各个智能体独立策略的同时,通过启用显式的通信渠道,实现了智能体之间的有效信息交流与更加集中的训练,最终在StarCraft II和Google Research Football等基准测试中取得了优秀的性能表现。