提出了一种基于 UCB1-Normal 赌博机算法的 MCTS / THTS(Monte Carlo Tree Search / Trial Based Heuristic Tree Search)算法,该算法可以处理具有不同尺度的奖励分布,在经典计划中使用有更好的性能表现。
May, 2023
本论文研究了一种称为图赌博机的多臂赌博机扩展问题,提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB,并证明其能够达到理论最优的遗憾界,数值实验结果表明该算法优于其他基准算法。
Sep, 2022
本文从树搜索、乐观算法和上置信界等方面入手,研究了平滑树和无限树的效率和有限后悔算法,提出了基于 UCB 的乐观算法和 Flat-UCB 算法,并在一个全局优化问题中展示了这些方法的应用。
Mar, 2007
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024
研究纸中提出了一种改进 Monte Carlo Tree Search (MCTS) 框架的算法,它能够在环境模型存在不完全时搜索更加确定的转换,从而提高搜索行为和性能。
Dec, 2023
本文介绍了一种基于贝叶斯框架与高斯近似算法的 Monte-Carlo Tree Search 方法,旨在更准确地估算节点价值和不确定性,并证明了该方法的在策略和非策略情境下的收敛性和实现的优越性。
Mar, 2012
该研究通过合理连接基于 MCTS 的两种不同种类算法来实现在短时间内寻求合理 good action,同时保持 BRUE 算法的优秀的收敛性能和指数级性能提高的保障。
Sep, 2013
通过引入随机 功值平 均估计器的随机功 - UCT 算法,实现在随 机马尔可夫 决策过程中更准确的价值估计,研究其多项式收 敛性和与 Fixed-Depth-MCTS 相同的收 敛速率。
通过结合经典的 UCB 算法和简单的变化检测组件,我们提出了一种称为 M-UCB 的算法,可以在未知时间步骤中检测和适应变化,并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验,我们还展示了该算法的卓越性能。
Feb, 2018
本文研究了具有重尾分布的奖励和量子奖励谷歌的多臂黑客(MAB)和随机线性黑客(SLB)。
Jan, 2023