AAAIJul, 2019

基于 MCTS 的深度强化学习的行动指导

TL;DR本文研究如何利用非专家演示者的行动指导来提高 Pommerman 多智能体基准环境下稀疏、延迟和可能具有误导性奖励的领域中的样本效率。我们提出了一个新框架,可以在异步分布式深度强化学习方法中集成非专家演示者,即使用 Monte Carlo 树搜索等策略算法,并以两种玩家为例进行测试,相较于纯粹的深度强化学习算法,我们的提出的方法可以更快地学习,并收敛于更好的策略。