极值蒙特卡洛树搜索

May, 2024

Extreme Value Monte Carlo Tree Search

Masataro Asai, Stephen Wissow

TL;DR在本文中，我们进一步深入研究了计划任务中使用的理想赌博机，并提出了两种赌博机 UCB1-Uniform/Power，然后将它们应用于传统计划的 MCTS 中，我们正式证明了它们的遗憾界限，并在传统计划中实证展示了它们的性能。

Abstract

Despite being successful in board games and reinforcement learning (RL), uct, a monte-carlo tree search (MCTS) combined with ucb1 multi-armed ban

发现论文，激发创造

提出了一种基于 UCB1-Normal 赌博机算法的 MCTS / THTS（Monte Carlo Tree Search / Trial Based Heuristic Tree Search）算法，该算法可以处理具有不同尺度的奖励分布，在经典计划中使用有更好的性能表现。

May, 2023

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

本文从树搜索、乐观算法和上置信界等方面入手，研究了平滑树和无限树的效率和有限后悔算法，提出了基于 UCB 的乐观算法和 Flat-UCB 算法，并在一个全局优化问题中展示了这些方法的应用。

Mar, 2007

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

研究纸中提出了一种改进 Monte Carlo Tree Search (MCTS) 框架的算法，它能够在环境模型存在不完全时搜索更加确定的转换，从而提高搜索行为和性能。

Dec, 2023

本文介绍了一种基于贝叶斯框架与高斯近似算法的 Monte-Carlo Tree Search 方法，旨在更准确地估算节点价值和不确定性，并证明了该方法的在策略和非策略情境下的收敛性和实现的优越性。

Mar, 2012

该研究通过合理连接基于 MCTS 的两种不同种类算法来实现在短时间内寻求合理 good action，同时保持 BRUE 算法的优秀的收敛性能和指数级性能提高的保障。

Sep, 2013

通过引入随机功值平均估计器的随机功 - UCT 算法，实现在随机马尔可夫决策过程中更准确的价值估计，研究其多项式收敛性和与 Fixed-Depth-MCTS 相同的收敛速率。

Jun, 2024

通过结合经典的 UCB 算法和简单的变化检测组件，我们提出了一种称为 M-UCB 的算法，可以在未知时间步骤中检测和适应变化，并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验，我们还展示了该算法的卓越性能。

Feb, 2018

本文研究了具有重尾分布的奖励和量子奖励谷歌的多臂黑客（MAB）和随机线性黑客（SLB）。

Jan, 2023