AAAIDec, 2020

学习停止:动态模拟蒙特卡罗树搜索

TL;DR本文提出一种名为 Dynamic Simulation MCTS 的算法,它通过预测当前状态的不确定性来决定是否停止搜索,实现了在不降低胜率的情况下,将 NoGo 智能体训练速度提高了 2.5 倍,并在同样的平均模拟次数下,取得了 61% 的胜率。