AlphaZeroES：直接最大化得分胜过规划损失最小化

Jun, 2024

AlphaZeroES：直接最大化得分胜过规划损失最小化

AlphaZeroES: Direct score maximization outperforms planning loss minimization

Carlos Martin, Tuomas Sandholm

TL;DR在单智能体环境中，通过直接最大化回合得分而不是最小化规划损失，可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下，优于 AlphaZero。

Abstract

planning at execution time has been shown to dramatically improve performance for agents in both single-agent and multi-agent settings. A well-known family of approaches to planning at execution time are

planning at execution time alphazero monte carlo tree search neural network evolution strategies

发现论文，激发创造

基于策略自竞争的规划问题解决方法

提出了 GAZ 'Play-to-Plan'（GAZ PTP）算法，并在两个组合优化问题，旅行商问题和工作车间调度问题上，表现出了比 GAZ 的单人游戏变体更好的效果，而且只需用一半的搜索模拟预算。

Jun, 2023

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

本文提出了一种 AlphaZero 启发的 MCTS 包装器，将其与时间差异学习智能体相结合，在不需要 GPU 或 TPU 等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

探索代理人环境，以优化其模型以获得更好的决策

为了提高人工智能的决策能力，文章提出了一种基于预测和规划的决策树算法 MuZero，通过该算法对决策树进行探索和改进，显著提高了代理人的决策能力。

Jun, 2023

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

Monte-Carlo 树搜索作为正则化策略优化

展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解，并通过提出一种利用此解的变量来实现，实验表明该算法在多个领域中可靠地优于原始算法。

Jul, 2020

基于分数的游戏中的分数与胜率：强化学习采用哪种奖励？

此篇论文探讨了在比分规则下，AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题，并给出了一个理论解释，阐述了在输赢状态下出于不同考虑的策略选择。

Jan, 2022

几乎极小化最优无奖学习

研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Oct, 2020

超越任务执行的评估：分析 AlphaZero 在 Hex 中的概念

使用自然语言处理中的两种评估技术，探究了 AlphaZero 在 Hex 游戏中的内部表示，研究发现 MCTS 在神经网络学习之前就发现了相关概念，而短期终局规划概念对应最终层，长期计划对应中间层。

Nov, 2022

想象中的规划：基于学习生成的抽象搜索空间的高级规划

我们提出了一种名为 PiZero 的新方法，使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同，这使得代理能够在任意时间尺度上进行高层规划，并以复合或时间扩展的动作形式进行推理，这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外，我们的方法比可比较的之前方法更通用，因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域，包括导航任务和 Sokoban，对我们的方法进行了评估。实验结果表明，我们的方法在没有假设访问环境模拟器的情况下，优于可比较的之前方法。

Aug, 2023