Oct, 2023

使用子博弈课程学习加速多智能体零和博弈中的强化学习

TL;DR本文介绍了一个基于子博弈课程学习框架(Subgame Automatic Curriculum Learning,SACL)的新算法,通过重置智能体到先前访问过的状态来加速学习,使用 SACL 可以生成比基线更强的策略,并且在 hide-and-seek quadrant 环境中使用了比 MAPPO 自我对抗训练只多一半的样本,得出了四个新的发展阶段。