Nov, 2021

具有好奇心驱动探索的情节式多智能体强化学习

TL;DR本篇论文提出了 Episodic Multi-agent 强化学习方法,并把个体 Q 值预测误差作为内部奖励,使用情节式记忆从经验中提升策略训练,从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中,我们的方法显著优于现有情况下的 MARL 基线。