- 不同游戏中蒙特卡罗树搜索性能的表征
我们描述了一个初步的数据集,该数据集包括了 268,386 个不同游戏中的 61 个不同代理的对局,旨在研究 Monte-Carlo Tree Search 在各种游戏中的表现和改进方法,以及对数据集的预测模型训练和未来计划。
- 随机蒙特卡洛树搜索中的功率均值估计
通过引入随机 功值平 均估计器的随机功 - UCT 算法,实现在随 机马尔可夫 决策过程中更准确的价值估计,研究其多项式收 敛性和与 Fixed-Depth-MCTS 相同的收 敛速率。
- 多臂赌博机中的全局奖励
提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题,并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明,该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。
- 极值蒙特卡洛树搜索
在本文中,我们进一步深入研究了计划任务中使用的理想赌博机,并提出了两种赌博机 UCB1-Uniform/Power,然后将它们应用于传统计划的 MCTS 中,我们正式证明了它们的遗憾界限,并在传统计划中实证展示了它们的性能。
- 蒙特卡洛树搜索与 Boltzmann 探索
此研究以蒙特卡洛树搜索方法为基础,介绍了最大熵树搜索 (MENTS) 的局限性,并提出了两种新算法,Boltzmann 树搜索 (BTS) 和 Decaying 熵树搜索 (DENTS),以解决这些局限性,并保留了 Boltzmann 策略 - 大型语言模型能否玩游戏?一种自我对弈方法的案例研究
结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题,提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。
- 通过关注未知的蒙特卡洛树搜索提升探索能力
AmEx-MCTS is a novel formulation of Monte-Carlo tree search that decouples value updates, visit count updates, and the s - 成功的压力:足球伤害风险缓解和团队成功的预测模型
本文提出了一种新颖的足球连续球队选择模型,通过对现实世界足球数据中学习到的球员特定信息建模,以模拟球员受伤和不可用性的随机过程。通过对球员受伤概率进行推理,利用蒙特卡洛树搜索 (Monte-Carlo Tree Search) 来选择在整个 - 多人联手绝杀一方:将 Mixture of Experts 与 MCTS 相结合以提升国际象棋
本研究采用深度学习与计算博弈相结合的新方法,通过 Mixture of Experts(MoE)方法和 Monte-Carlo Tree Search(MCTS)来提高计算机棋类游戏的表现,实验结果显示相较于传统单一模型,该综合方法显著提升 - 利用对比学习学习混合整数规划问题的后门
利用蒙特卡洛树搜索方法收集训练数据,通过对比学习框架训练图注意力网络模型来预测 Mixed Integer Programs 中的 MIP backdoors,相比 Gurobi 和之前的模型,在四个常见的 MIP 问题领域中展现了性能的提 - 使用软防护的安全强化学习对分布式灵活装配线进行调度
研究了基于 Actor-Critic 强化学习方法的自动化装配线调度问题,提出了一种更简洁的环境表示方法,并引入基于 Monte-Carlo 树搜索的软屏蔽组件来改善调度过程中的不安全行为和风险监控。
- Alpha 消除:使用深度强化学习减少稀疏矩阵分解时的填充
提出了一种使用蒙特卡洛树搜索的强化学习方法,将稀疏矩阵重新排序以减少填充,从而在 LU 分解中产生更少的非零元素,并且不增加算法的整体运行时间。
- 进一步改进 PPO 算法:基于值导向的蒙特卡罗树搜索解码
通过将 MCTS 与 PPO 集成,在推断时生成自然语言文本,相较于仅使用 PPO 策略,PPO-MCTS 极大地提高了生成文本的优越性,减少了训练和测试之间的部分输出评分机制不匹配的问题,证明了搜索算法在与 PPO 进行对齐的语言模型上的 - 通过最优输运传播的蒙特卡洛树搜索
本论文介绍了一种新的备份策略用于 Monte-Carlo 树搜索 (MCTS),适用于高度随机和部分可观察的马尔可夫决策过程。我们采用概率方法,将值节点和动作值节点建模为高斯分布。我们引入了一种新的备份运算符,将值节点计算为其动作值子节点的 - 江郡:通过解决两人零和博弈中的不可传递性来掌握象棋
通过分析超过 10,000 条人类象棋比赛记录,本文重点研究了象棋游戏中存在的传递性与非传递性元素,并引入了 JiangJun 算法,这是一种蒙特卡洛树搜索(MCTS)和策略空间响应神谕(PSRO)的创新组合,旨在近似纳什均衡。我们通过一个 - 多代理路径规划的蒙特卡洛树搜索:初步结果
研究了多智能体路径规划中如何利用蒙特卡洛树搜索(Monte-Carlo Tree Search)解决问题,提出了一种适用于多智能体路径规划的改进 MCTS 变种,通过计算个体路径和奖励来指导搜索过程,实验证明该方法优于基线规划算法。
- 基于强化学习的语法引导综合
在这项研究中,我们将通用 SyGuS 问题作为树搜索框架,并提出了一种基于蒙特卡洛树搜索 (MCTS) 的增强学习引导合成算法。我们的算法结合了学习到的策略和值函数,以及平衡探索和利用的树上置信上界。我们还介绍了一种基于现有一阶可满足性问题 - 在部分可观察环境中,结合元政策和蒙特卡罗规划实现可扩展的基于类型的推理
提出了一种基于类型推理的部分可观测元蒙特卡罗规划方法,在多智能体系统中实现对其他智能体的有效交互和长期规划,相比现有方法计算更快且能够得到更优解。
- 思维习惯:重用动作序列进行高效计划
本篇论文说明了通过采用贝叶斯行动划分机制、嵌入到 Monte-Carlo 搜索树中以及更快速准确的规划路径,通过运动序列的练习来实现搜索树的扩展,减少多步跳转,通过这些操作快速准确地处理物理建模问题。
- 了解你的敌人:在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索
本研究探讨了将多人博弈转化为单人和双人博弈的技术,并通过使用启发式和自我对弈等方法,研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。