IJCAIMay, 2019
多策略价值蒙特卡罗树搜索
Multiple Policy Value Monte Carlo Tree Search
Li-Cheng Lan, Wei Li, Ting-Han Wei, I-Chen Wu
TL;DR介绍了一种名为多策略值 MCTS (MPV-MCTS) 的新方法,它结合了多个不同大小的策略值神经网络 (PV-NN),以平衡精确状态估计和更多的 MCTS 模拟,以提升游戏运行代理的性能。在 NoGo 游戏和 AZ 训练中,与单个 PV-NN 结合策略值 MCTS 相比,MPV-MCTS 表现更好。