AAAIDec, 2020
学习停止:动态模拟蒙特卡罗树搜索
Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search
Li-Cheng Lan, Meng-Yu Tsai, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh
TL;DR本文提出一种名为 Dynamic Simulation MCTS 的算法,它通过预测当前状态的不确定性来决定是否停止搜索,实现了在不降低胜率的情况下,将 NoGo 智能体训练速度提高了 2.5 倍,并在同样的平均模拟次数下,取得了 61% 的胜率。