学习停止：动态模拟蒙特卡罗树搜索

AAAIDec, 2020

学习停止：动态模拟蒙特卡罗树搜索

Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search

Li-Cheng Lan, Meng-Yu Tsai, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh

TL;DR本文提出一种名为 Dynamic Simulation MCTS 的算法，它通过预测当前状态的不确定性来决定是否停止搜索，实现了在不降低胜率的情况下，将 NoGo 智能体训练速度提高了 2.5 倍，并在同样的平均模拟次数下，取得了 61% 的胜率。

Abstract

monte carlo tree search (MCTS) has achieved state-of-the-art results in many domains such as Go and Atari games when combining with deep neural networks (DNNs). When more simulations are executed, MCTS can achiev

monte carlo tree search deep neural networks dynamic simulation mcts alphazero nogo

发现论文，激发创造

使用 MCTSnets 学习搜索

该论文提出了一种名为 MCTSnet 的体系架构，其将基于模拟的搜索嵌入神经网络中，并通过向量嵌入扩展，评估和备份。该网络的参数进行端到端的训练优化，应用于小范围的搜索中，显著优于 MCTS 基线的性能。

Feb, 2018

超越蒙特卡罗树搜索：使用深度备选神经网络和长期评估玩围棋

本文提出了一种使用深度替代神经网络（DANN）和长期评估模块的计算机围棋系统，其中 DANN 的效果优于传统的深度卷积神经网络（DCNN），并结合长期评估模块的选择比大多数现有的基于蒙特卡罗树搜索的开源引擎更好。

Jun, 2017

连续蒙特卡罗图搜索

本文提出了 Continuous Monte Carlo Graph Search（CMCGS），一种将 Monte Carlo Tree Search（MCTS）扩展到连续状态和动作空间的在线规划方法，并在 DeepMind Control Suite 基准测试和 2D 导航任务中表现优异。

Oct, 2022

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

本文提出了一种 AlphaZero 启发的 MCTS 包装器，将其与时间差异学习智能体相结合，在不需要 GPU 或 TPU 等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

蒙特卡洛树搜索：近期修改和应用综述

本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用，这种方法依赖于智能树搜索并平衡探索和利用。

Mar, 2021

一种高效的动态采样策略用于蒙特卡洛树搜索

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

达芬奇密码游戏策略模拟的蒙特卡罗树搜索算法的开发与应用

通过比较分析基于 CPU 和 GPU 的 MCTS 算法在分支分歧情况下的性能，我们发现 CPU 实现呈线性改进趋势，而 GPU 实现呈现出非线性的增强模式和明显的性能下降。这些发现对于优化并行计算架构上的游戏策略算法具有重要的考虑价值。

Mar, 2024

蒙特卡罗树搜索中的贝叶斯推断

本文介绍了一种基于贝叶斯框架与高斯近似算法的 Monte-Carlo Tree Search 方法，旨在更准确地估算节点价值和不确定性，并证明了该方法的在策略和非策略情境下的收敛性和实现的优越性。

Mar, 2012

明智地利用思考时间：使用虚拟扩展加速 MCTS

本文提出了一种计算时间与性能之间折衷的新算法 Virtual-MCTS，可以适应性地将更多的计算时间用于更困难的状态上，同时相对较少地用于简单状态，演示表明此方法在限时和限制的资源任务下具有很好的性能表现，相较于原算法仅需 50% 以下的计算时间。

Oct, 2022