May, 2019

多智能体强化学习中基于内在奖励的协调探索

TL;DR该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。