蒙特卡罗树搜索中的贝叶斯推断

Mar, 2012

Bayesian Inference in Monte-Carlo Tree Search

Gerald Tesauro, V T Rajan, Richard Segal

TL;DR本文介绍了一种基于贝叶斯框架与高斯近似算法的 Monte-Carlo Tree Search 方法，旨在更准确地估算节点价值和不确定性，并证明了该方法的在策略和非策略情境下的收敛性和实现的优越性。

Abstract

monte-carlo tree search (MCTS) methods are drawing great interest after yielding breakthrough results in computer Go. This paper proposes a Bayesian approach to MCTS that is inspired by distributionfree approaches such as →

monte-carlo tree search bayesian approach uct node values node uncertainties

发现论文，激发创造

在转移不确定性条件下的蒙特卡洛树搜索

研究纸中提出了一种改进 Monte Carlo Tree Search (MCTS) 框架的算法，它能够在环境模型存在不完全时搜索更加确定的转换，从而提高搜索行为和性能。

Dec, 2023

蒙特卡洛树搜索：近期修改和应用综述

本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用，这种方法依赖于智能树搜索并平衡探索和利用。

Mar, 2021

蒙特卡罗树下降用于黑盒优化

本文研究了在黑盒优化中通过引入 Monte Carlo Tree Search 方法和结合具备随机搜索功能和高斯过程的新下降方法等技术，以实现更快速的优化。实验结果表明，所提出的方法在各种有挑战性的基准问题上表现优越。

Nov, 2022

通过最优输运传播的蒙特卡洛树搜索

本论文介绍了一种新的备份策略用于 Monte-Carlo 树搜索 (MCTS)，适用于高度随机和部分可观察的马尔可夫决策过程。我们采用概率方法，将值节点和动作值节点建模为高斯分布。我们引入了一种新的备份运算符，将值节点计算为其动作值子节点的 Wasserstein 重心，从而将估计的不确定性传播到根节点。我们研究了当使用 L^1-Wasserstein 重心与 α- 分歧的新的组合时，我们的新备份运算符，通过与广义平均备份运算符的显著联系。我们将概率备份运算符与基于乐观选择和汤普森抽样的两种采样策略相结合，得到了我们的 Wasserstein MCTS 算法。我们在几个随机和部分可观察环境上提供了渐近收敛到最优策略的理论保证，并进行了实证评估，结果表明我们的方法优于相关基准。

Sep, 2023

基于蒙特卡罗树搜索和价值函数的离散分布近似推断

利用强化学习中的蒙特卡罗树搜索（Monte Carlo Tree Search）算法对概率模型的近似推理进行建模，提出了基于 “最佳先行探索” 的启发式方法来动态分配函数调用，并展示了该方法的效果优于标准的近似推理方法。

Oct, 2019

蒙特卡罗规划：理论上的快速收敛遇见实际上的高效率

该研究通过合理连接基于 MCTS 的两种不同种类算法来实现在短时间内寻求合理 good action，同时保持 BRUE 算法的优秀的收敛性能和指数级性能提高的保障。

Sep, 2013

一种高效的动态采样策略用于蒙特卡洛树搜索

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

极值蒙特卡洛树搜索

在本文中，我们进一步深入研究了计划任务中使用的理想赌博机，并提出了两种赌博机 UCB1-Uniform/Power，然后将它们应用于传统计划的 MCTS 中，我们正式证明了它们的遗憾界限，并在传统计划中实证展示了它们的性能。

May, 2024

蒙特卡罗树搜索中价值备份和探索的统一视角

研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search，MCTS) 算法中的收敛速率和探索程度，基于引入的备份操作与熵正则化，提供强有力的理论保证，实验证明方法有效。

Feb, 2022

蒙特卡洛树搜索与 Boltzmann 探索

此研究以蒙特卡洛树搜索方法为基础，介绍了最大熵树搜索 (MENTS) 的局限性，并提出了两种新算法，Boltzmann 树搜索 (BTS) 和 Decaying 熵树搜索 (DENTS)，以解决这些局限性，并保留了 Boltzmann 策略的优势。通过实证分析，发现这些算法在多个基准领域，包括围棋游戏，都能保持高性能。

Apr, 2024