ReZero: 提高基于 MCTS 算法的效率通过及时和快速的重新分析

Apr, 2024

ReZero: 提高基于 MCTS 算法的效率通过及时和快速的重新分析

ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze

Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Jing Yang

TL;DR提供了一种名为 ReZero 的通用方法来提高基于 MCTS 的算法，在显著降低搜索成本的同时保证性能，从而大幅提高训练速度和样本效率。

Abstract

mcts-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency, albeit a

mcts-based algorithms rezero sample efficiency search cost training speed

发现论文，激发创造

LightZero: 通用顺序决策场景下的统一蒙特卡罗树搜索基准

通过在各类领域中构建强大的 LightZero 代理，我们展示了使用基于树搜索规划能力与学习模型的代理在处理复杂动作空间和昂贵模拟成本、或存在随机因素的真实世界问题时的显著潜力。

Oct, 2023

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

本文提出了一种 AlphaZero 启发的 MCTS 包装器，将其与时间差异学习智能体相结合，在不需要 GPU 或 TPU 等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

利用学习模型实现高效的离线策略优化

通过研究，本文提出使用一种规范化的一步前瞻方法来解决 MuZero Unplugged 在离线强化学习设置下可能存在的一些问题，并在 BSuite 环境中进行了广泛的实证研究，得到了稳定的结果，并在大规模的 Atari 基准测试中取得了优异的表现。

Oct, 2022

通过学习模型进行计划的在线和离线强化学习

本文提出了一种称为 Reanalyse 的算法，能够在固定数据集和与环境交互的情况下，使用模型为基础的策略和价值改进算子来计算改进训练目标，并在多个数据预算范围内实现高效学习。此外，结合 MuZero 算法，提出了 MuZero Unplugged，它是一种单一统一算法，能够适用于任何数据预算，包括离线 Reinforcement Learning（RL），并在 RL Unplugged 离线 RL 基准测试和标准 200 万帧的 Atari 在线 RL 基准测试中取得了新的最先进结果。

Apr, 2021

有限数据下的 Atari 游戏掌握

EfficientZero 是一种基于 MuZero 的样本有效的模型图像强化学习算法，在只有两个小时实时游戏体验的情况下，在 Atari 100k 基准测试上取得了 194.3％的人类平均性能和 109.0％的中位性能，并且在一些 DMControl 100k 基准测试中胜过了 state SAC 算法，是第一次用如此少的数据量实现超越人类的 Atari 游戏算法。

Oct, 2021

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

UniZero: 通用高效规划与可扩展潜在世界模型

UniZero 是一种基于 Transformer 的新增方法，通过解耦潜在状态和历史信息，能够更好地捕捉长期依赖关系，提供了更加广泛和高效的潜在空间规划，相比 MuZero-style 算法在 Atari 100k 基准测试中表现更好，且在需要长期记忆的基准测试中显著优于之前的基线模型。

Jun, 2024

Monte-Carlo 树搜索作为正则化策略优化

展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解，并通过提出一种利用此解的变量来实现，实验表明该算法在多个领域中可靠地优于原始算法。

Jul, 2020

MiniZero: 两种强化学习算法 AlphaZero 和 MuZero 在围棋、奥赛罗和雅达利游戏上的比较分析

该论文介绍了 MiniZero，一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架，并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中的性能表现，发现在两个棋盘游戏中，使用更多模拟通常会产生更高的性能，但 AlphaZero 和 MuZero 的选择可能会根据游戏的特性而有所不同，而在 Atari 游戏中，MuZero 和 Gumbel MuZero 都值得考虑，因为每个游戏都具有独特的特点，不同的算法和模拟会产生不同的结果，此外，论文还介绍了一种称为渐进式模拟的方法，在训练过程中逐渐增加模拟预算，以更有效地分配计算资源，实证结果表明，渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型，该论文为零知识学习算法的未来研究提供了基准，帮助研究人员进行算法选择和与这些零知识学习基准的比较。

Oct, 2023

MuZero 学习的模型是什么？

本文介绍了一种名为 MuZero 的深度模型强化学习算法，研究其深度学习模型的学习目标和用于策略改进的实用性，结果表明 MuZero 所学模型不能有效地推广到评估未知的策略，这限制了我们使用该模型进行计划进一步改善当前策略的程度。

Jun, 2023