加速围棋自我博弈学习

该论文介绍了 MiniZero，一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架，并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中的性能表现，发现在两个棋盘游戏中，使用更多模拟通常会产生更高的性能，但 AlphaZero 和 MuZero 的选择可能会根据游戏的特性而有所不同，而在 Atari 游戏中，MuZero 和 Gumbel MuZero 都值得考虑，因为每个游戏都具有独特的特点，不同的算法和模拟会产生不同的结果，此外，论文还介绍了一种称为渐进式模拟的方法，在训练过程中逐渐增加模拟预算，以更有效地分配计算资源，实证结果表明，渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型，该论文为零知识学习算法的未来研究提供了基准，帮助研究人员进行算法选择和与这些零知识学习基准的比较。

Oct, 2023

AlphaZero 五子棋

AlphaZero 算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

使用基于人口的训练加速和改进 AlphaZero

本文提出使用基于人口的训练 (PBT) 方法动态调整超参数并在训练过程中提高模型性能，证明该方法在 9x9 Go 上获得了更高的胜率，在 19x19 Go 上相比于 AlphaZero 的饱和版本获得了更高的胜率 (74% vs 47%)

Mar, 2020

通用游戏求解的快速且无需专业知识的深度学习

我们开发了一种将 AlphaZero 模型适应于通用游戏对战（GGP）的方法，该方法侧重于更快的模型生成并且需要从游戏规则中提取的知识更少。数据集生成使用 MCTS 进行游戏对战，只使用值网络，并且使用注意力层替换卷积层。我们在 Regular Boardgames GGP 系统中实施了这种方法，并展示了我们可以高效地构建优于 UCT 基准的模型。

Dec, 2023