Jun, 2024

多智能体基于时间对比学习的迁移学习

TL;DR该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习,发现有意义的子目标。实验证明,该方法在多智能体协调任务 Overcooked 上能够提高样本效率,解决稀疏奖励和长期规划问题,并且相比基准方法具有更高的可解释性。与最先进的基准方法相比,我们的方法只需要原来的 21.7% 的训练样本就能达到相同或更好的性能。