通过均衡逼近实现对同时行动博弈的树搜索
通过总结深层树结构的置信区间并在根节点应用最佳选择算法,我们开发了一种新的算法来解决游戏树搜索问题,并证明了样本复杂度保证具有对问题实例的精细依赖性。实验证明,与现有的基于排除算法和深度为2的树的专用方法相比,我们的算法具有更好的表现。
Jun, 2017
本文提出了两种搜索技术,分别是单智能体搜索和多智能体共同知识搜索,在合作部分可观察游戏中应用,以提升合作智能体的性能。在Hanabi基准挑战问题中,两种技术均能大幅提高每个测试智能体的性能,并对使用RL训练的策略产生了新的最先进得分24.61/25。
Dec, 2019
本文提出了一种使用基于Monte-Carlo Tree Search和深度强化学习相结合的方法的搜索算法,通过1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏SameGame上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
May, 2020
本研究提出了一种适用于任意分解动作的Monte-Carlo Tree Search算法,并对棋盘游戏进行了测试,得出结论认为分解设计对单动作和多动作游戏都非常有益。
Dec, 2021
本研究回顾了129篇关于神经蒙特卡罗树搜索方法在除游戏外的领域应用的同行评审文章,旨在系统评估此类方法在实践中的构造方式,以及它们在其他领域中是否成功应用。研究发现这类方法在各种领域中都有应用,采用了多种不同的学习策略和价值函数指导搜索树,并且采用了不同的训练方法。本文扫描了神经蒙特卡罗树搜索算法家族在实践问题中的现有景象,这是针对特定问题及要求设计此类算法的更加原则性的步骤的开端。
Mar, 2023
本文提出了一种新的游戏搜索算法,PN-MCTS,该算法将Monte-Carlo树搜索(MCTS)和证明数搜索(PNS)相结合。我们定义了三个领域,在这些领域中,在MCTS树中收集的证明和反证号所提供的额外知识可能会被使用。在不同的时间设置中测试了所有可能的组合,并与几个游戏进行了对抗。实验表明,PN-MCTS在5个游戏领域中(Gomoku除外)自信地优于MCTS,Lines of Action的胜率高达96.2%。
Mar, 2023
本研究探讨了将多人博弈转化为单人和双人博弈的技术,并通过使用启发式和自我对弈等方法,研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。
May, 2023
研究了多智能体路径规划中如何利用蒙特卡洛树搜索(Monte-Carlo Tree Search)解决问题,提出了一种适用于多智能体路径规划的改进MCTS变种,通过计算个体路径和奖励来指导搜索过程,实验证明该方法优于基线规划算法。
Jul, 2023
利用自我对弈和规划相结合的方法,通过模拟自我对弈学习有限理性智能体,提出了Albatross算法,在同时进行的游戏中实现合作和竞争,达到了较好的效果。
Feb, 2024
我们描述了一个初步的数据集,该数据集包括了268,386个不同游戏中的61个不同代理的对局,旨在研究Monte-Carlo Tree Search在各种游戏中的表现和改进方法,以及对数据集的预测模型训练和未来计划。
Jun, 2024