May, 2024

MESA:基于状态动作空间结构的多智能体学习中的合作元探索

TL;DRMESA 是一种新颖的元探索方法,通过从训练任务中识别代理的高奖励联合状态 - 动作子空间,然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明,通过学习到的探索策略,MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能,并具备在测试时泛化到更复杂任务的能力。