单智能体优化：通过蒙特卡罗树搜索进行策略迭代

AAAIMay, 2020

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

Single-Agent Optimization Through Policy Iteration Using Monte-Carlo Tree Search

Arta Seify, Michael Buro

TL;DR本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

Abstract

The combination of monte-carlo tree search (MCTS) and deep reinforcement learning is state-of-the-art in two-player perfect-information games. In this paper, we describe a search algorithm that uses a variant of MCTS which we enhanced by 1) a novel →

monte-carlo tree search deep reinforcement learning action value normalization virtual loss function self-play

发现论文，激发创造

Monte-Carlo 树搜索作为正则化策略优化

展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解，并通过提出一种利用此解的变量来实现，实验表明该算法在多个领域中可靠地优于原始算法。

Jul, 2020

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

蒙特卡洛树搜索：近期修改和应用综述

本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用，这种方法依赖于智能树搜索并平衡探索和利用。

Mar, 2021

一种高效的动态采样策略用于蒙特卡洛树搜索

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

蒙特卡罗树搜索中价值备份和探索的统一视角

研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search，MCTS) 算法中的收敛速率和探索程度，基于引入的备份操作与熵正则化，提供强有力的理论保证，实验证明方法有效。

Feb, 2022

风险感知和多目标强化学习的蒙特卡罗树搜索算法

本文提出了两种基于蒙特卡罗树搜索的算法，能够针对非线性效用函数计算风险意识和多目标环境下的回报策略，并考虑累计回报，同时，这两个算法在多目标强化学习中，预期回报的表现超越了现有的最优算法。

Nov, 2022

策略梯度搜索：无需搜索树的在线规划和专家迭代

本研究提出一种用于模拟搜索的政策梯度搜索方法，通过在线更新神经网络模拟策略，实现避免使用搜索树的效果。在 Hex 上，与 MCTS 相比，PGS 取得了相当的性能，并且使用 PGS 进行专家迭代训练的代理能够在 9x9 Hex 中击败最强的开源 Hex 代理 MoHex 2.0。

Apr, 2019

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

在非稳态环境中的决策制定与策略增强搜索

在非固定环境下，通过结合过时策略的动作价值估计和最新环境模型的在线搜索，我们引入了一种名为 PA-MCTS 的增强蒙特卡洛树搜索方法，该方法解决了时限有限情况下的顺序决策问题，并在与 AlphaZero 和 Deep Q Learning 的对比实验中显示优越性。

Jan, 2024

多策略价值蒙特卡罗树搜索

介绍了一种名为多策略值 MCTS (MPV-MCTS) 的新方法，它结合了多个不同大小的策略值神经网络 (PV-NN)，以平衡精确状态估计和更多的 MCTS 模拟，以提升游戏运行代理的性能。在 NoGo 游戏和 AZ 训练中，与单个 PV-NN 结合策略值 MCTS 相比，MPV-MCTS 表现更好。

May, 2019