- 了解你的敌人:在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索
本研究探讨了将多人博弈转化为单人和双人博弈的技术,并通过使用启发式和自我对弈等方法,研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。
- 基于证明数的蒙特卡罗树搜索
本文提出了一种新的游戏搜索算法,PN-MCTS,该算法将 Monte-Carlo 树搜索(MCTS)和证明数搜索(PNS)相结合。我们定义了三个领域,在这些领域中,在 MCTS 树中收集的证明和反证号所提供的额外知识可能会被使用。在不同的时 - 深度主动推理的解构
本文介绍了基于主动推理的深度强化学习理论,利用 Monte-Carlo 搜索和深度学习扩展此框架,实现更复杂任务的解决,实验表明,除了最后一层的 critic network 以及转移和编码器网络的方差层,将期望自由能最小化的主动推理代理与 - 蒙特卡洛树搜索中的前瞻性病理学
本研究通过引入一种新的合成游戏家族,从理论和实验两个方面研究了 UCT 算法的前瞻病理学,表明 UCT 算法在一些游戏中存在病理行为。
- 明智地利用思考时间:使用虚拟扩展加速 MCTS
本文提出了一种计算时间与性能之间折衷的新算法 Virtual-MCTS,可以适应性地将更多的计算时间用于更困难的状态上,同时相对较少地用于简单状态,演示表明此方法在限时和限制的资源任务下具有很好的性能表现,相较于原算法仅需 50% 以下的计 - ICLR利用学习模型实现高效的离线策略优化
通过研究,本文提出使用一种规范化的一步前瞻方法来解决 MuZero Unplugged 在离线强化学习设置下可能存在的一些问题,并在 BSuite 环境中进行了广泛的实证研究,得到了稳定的结果,并在大规模的 Atari 基准测试中取得了优异 - 多模态和多因素分支时间主动推断
本文提出了一种新的分支时间主动推理算法,它可以加速计算后验概率,并解决了模拟以前的算法存在的一些限制,同时也提高了模型解决任务的准确性。
- 精确组合优化的深度强化学习:学习分支
本文提出一种基于强化学习的方法用于解决组合优化中的数据标记和推理延迟问题,并使用蒙特卡罗树搜索和价值网络提高策略网络的性能表现。作者在四种不同类别的组合优化问题上进行了评估,结果表明该方法相较于现有机器学习和启发式方法有更优的性能表现。
- 蒙特卡罗树搜索与证明数搜索的结合
本文介绍了一种称为 PN-MCTS 的新方法,它将 Proof-Number Search 和 Monte-Carlo Tree Search 相结合,将证明和证伪数的概念纳入 MCTS 的 UCT 公式中,实验结果表明,PN-MCTS 在 - 使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程
本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略,旨在克服两种方法在应对非马尔可夫决策过程上的困难,有效提升算法的效率。
- 蒙特卡罗树搜索中价值备份和探索的统一视角
研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search,MCTS) 算法中的收敛速率和探索程度,基于引入的备份操作与熵正则化,提供强有力的理论保证,实验证明方法有效。
- AAAIMonte-Carlo 树搜索中的分裂移动
本研究提出了一种适用于任意分解动作的 Monte-Carlo Tree Search 算法,并对棋盘游戏进行了测试,得出结论认为分解设计对单动作和多动作游戏都非常有益。
- 如何选择英雄?神经网络和搜索树帮助你学会在 MOBA 游戏中选人
本研究将策略和组队配合的重要性引入 MOBA 游戏英雄招选中,提出了一种新的基于神经网络和蒙特卡罗树搜索算法的招选算法,名为 JueWuDraft,可以更高效的完成英雄招选,使得招选英雄的效率得到了提升。
- ICMLMonte-Carlo 树搜索作为正则化策略优化
展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解,并通过提出一种利用此解的变量来实现,实验表明该算法在多个领域中可靠地优于原始算法。
- AAAI单智能体优化:通过蒙特卡罗树搜索进行策略迭代
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网 - 关于回合制零和马尔可夫博弈的强化学习
本文提出了一种基于强化学习的方法,结合 “探索,策略改进和监督学习”,以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。
- IJCAI蒙特卡罗树搜索用于策略优化
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
- ICLR结合 Q 学习和搜索及摊销值估计
SAVE 是一种将模型无关的 Q - 学习与模型基于 Monte-Carlo 树搜索相结合的方法,它能够通过引导搜索来优化状态 - 动作值,从而在不增加计算成本的情况下提高学习性能,该方法已应用于物理推理任务和 Atari 游戏的智能体中展 - 利用深度神经网络和人类数据学习国际象棋变种 Crazyhouse 超越世界冠军水平
通过利用神经网络的监督学习,提高了对于棋类游戏的效率并且降低了计算成本,从而设计出了一个专门训练于 crazyhouse 象棋的深度神经网络引擎。该引擎在 569,537 场人类游戏中进行了 1.5 天的训练,获得了 60.4% 的棋步准确 - 蒙特卡罗树搜索与自动化机器学习
在 AutoML 任务中,使用基于蒙特卡罗树搜索(MCTS)的方法 Mosaic 来处理混合结构和参数昂贵的黑盒优化问题,并在基准测试中获得了统计显著的性能提升。