MiniZero: 两种强化学习算法 AlphaZero 和 MuZero 在围棋、奥赛罗和雅达利游戏上的比较分析

Oct, 2023

MiniZero: 两种强化学习算法 AlphaZero 和 MuZero 在围棋、奥赛罗和雅达利游戏上的比较分析

MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games

Ti-Rong Wu, Hung Guei, Po-Wei Huang, Pei-Chiun Peng, Ting Han Wei...

TL;DR该论文介绍了 MiniZero，一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架，并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中的性能表现，发现在两个棋盘游戏中，使用更多模拟通常会产生更高的性能，但 AlphaZero 和 MuZero 的选择可能会根据游戏的特性而有所不同，而在 Atari 游戏中，MuZero 和 Gumbel MuZero 都值得考虑，因为每个游戏都具有独特的特点，不同的算法和模拟会产生不同的结果，此外，论文还介绍了一种称为渐进式模拟的方法，在训练过程中逐渐增加模拟预算，以更有效地分配计算资源，实证结果表明，渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型，该论文为零知识学习算法的未来研究提供了基准，帮助研究人员进行算法选择和与这些零知识学习基准的比较。

Abstract

This paper presents minizero, a zero-knowledge learning framework that supports four state-of-the-art algorithms, including alphazero,

zero-knowledge learning minizero alphazero muzero gumbel muzero

发现论文，激发创造

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

AlphaZero 五子棋

AlphaZero 算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

加速围棋自我博弈学习

通过改进 AlphaZero 的过程和架构，我们在 Go 中极大地加速了自我博弈学习，与类似方法相比，计算量减少了 50 倍。

Feb, 2019

解决搜索问题的 AlphaZero 启发方法

AlphaZero 和 MuZero 是使用机器学习技术进行超级人类棋类游戏表现的程序，并尝试将其应用于解决搜索问题，本文描述了在搜索问题中如何使用 AlphaZero 技术进行表示以及求解规则，并提出了适用于该类问题的一种 Monte Carlo tree search 方法。

Jul, 2022

有限数据下的 Atari 游戏掌握

EfficientZero 是一种基于 MuZero 的样本有效的模型图像强化学习算法，在只有两个小时实时游戏体验的情况下，在 Atari 100k 基准测试上取得了 194.3％的人类平均性能和 109.0％的中位性能，并且在一些 DMControl 100k 基准测试中胜过了 state SAC 算法，是第一次用如此少的数据量实现超越人类的 Atari 游戏算法。

Oct, 2021

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

本文提出了一种 AlphaZero 启发的 MCTS 包装器，将其与时间差异学习智能体相结合，在不需要 GPU 或 TPU 等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

等变 MuZero

本文提出一种改进 MuZero 强化学习算法的方法，通过将环境的对称性显式地纳入其世界模型架构，既提高了数据效率，又提高了泛化能力，并在 MiniPacman 和 Chaser 上进行测试。

Feb, 2023

ELF OpenGo:AlphaZero 模型的开放性实现和分析

本研究提出 ELF OpenGo，这是第一个开源的围棋 AI，其重新实现了 AlphaZero 算法并以完美的战绩（20：0）与国际顶级专业人士相比表明了超人类性能。我们对 ELF OpenGo 进行了广泛的消融研究，并在模型训练和游戏推理过程中分析出许多有趣的现象。

Feb, 2019