IJCAIMay, 2019

多策略价值蒙特卡罗树搜索

TL;DR介绍了一种名为多策略值 MCTS (MPV-MCTS) 的新方法,它结合了多个不同大小的策略值神经网络 (PV-NN),以平衡精确状态估计和更多的 MCTS 模拟,以提升游戏运行代理的性能。在 NoGo 游戏和 AZ 训练中,与单个 PV-NN 结合策略值 MCTS 相比,MPV-MCTS 表现更好。