AAAIMay, 2020

单智能体优化:通过蒙特卡罗树搜索进行策略迭代

TL;DR本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。