多策略价值蒙特卡罗树搜索

IJCAIMay, 2019

Multiple Policy Value Monte Carlo Tree Search

Li-Cheng Lan, Wei Li, Ting-Han Wei, I-Chen Wu

TL;DR介绍了一种名为多策略值 MCTS (MPV-MCTS) 的新方法，它结合了多个不同大小的策略值神经网络 (PV-NN)，以平衡精确状态估计和更多的 MCTS 模拟，以提升游戏运行代理的性能。在 NoGo 游戏和 AZ 训练中，与单个 PV-NN 结合策略值 MCTS 相比，MPV-MCTS 表现更好。

Abstract

Many of the strongest game playing programs use a combination of Monte Carlo tree search (MCTS) and deep neural networks (DNN), where the DNNs are used as policy or value evaluators. Given a limited budget, such as online playing or during the self-play phase of AlphaZero (AZ) training

monte carlo tree search deep neural networks game playing agent accurate state estimation multiple policy value mcts

发现论文，激发创造

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

进一步改进 PPO 算法：基于值导向的蒙特卡罗树搜索解码

通过将 MCTS 与 PPO 集成，在推断时生成自然语言文本，相较于仅使用 PPO 策略，PPO-MCTS 极大地提高了生成文本的优越性，减少了训练和测试之间的部分输出评分机制不匹配的问题，证明了搜索算法在与 PPO 进行对齐的语言模型上的潜力和价值网络的未充分探索的好处。

Sep, 2023

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Mar, 2024

蒙特卡罗树搜索中价值备份和探索的统一视角

研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search，MCTS) 算法中的收敛速率和探索程度，基于引入的备份操作与熵正则化，提供强有力的理论保证，实验证明方法有效。

Feb, 2022

超越蒙特卡罗树搜索：使用深度备选神经网络和长期评估玩围棋

本文提出了一种使用深度替代神经网络（DANN）和长期评估模块的计算机围棋系统，其中 DANN 的效果优于传统的深度卷积神经网络（DCNN），并结合长期评估模块的选择比大多数现有的基于蒙特卡罗树搜索的开源引擎更好。

Jun, 2017

策略梯度搜索：无需搜索树的在线规划和专家迭代

本研究提出一种用于模拟搜索的政策梯度搜索方法，通过在线更新神经网络模拟策略，实现避免使用搜索树的效果。在 Hex 上，与 MCTS 相比，PGS 取得了相当的性能，并且使用 PGS 进行专家迭代训练的代理能够在 9x9 Hex 中击败最强的开源 Hex 代理 MoHex 2.0。

Apr, 2019

学习停止：动态模拟蒙特卡罗树搜索

本文提出一种名为 Dynamic Simulation MCTS 的算法，它通过预测当前状态的不确定性来决定是否停止搜索，实现了在不降低胜率的情况下，将 NoGo 智能体训练速度提高了 2.5 倍，并在同样的平均模拟次数下，取得了 61% 的胜率。

Dec, 2020

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

带策略增强蒙特卡罗树搜索的非静态环境决策

通过结合强化学习和计划，提出了一种称为 Policy Augmented MCTS（PA-MCTS）的新型混合决策方法，将策略的动作价值估计结合到 MCTS 中，以更好地适应非稳态环境下的决策制定。经测试，PA-MCTS 相对于标准 MCTS 和纯强化学习能更快地收敛并做出更好的决策。

Feb, 2022

风险感知和多目标强化学习的蒙特卡罗树搜索算法

本文提出了两种基于蒙特卡罗树搜索的算法，能够针对非线性效用函数计算风险意识和多目标环境下的回报策略，并考虑累计回报，同时，这两个算法在多目标强化学习中，预期回报的表现超越了现有的最优算法。

Nov, 2022