Oct, 2023

MiniZero: 两种强化学习算法 AlphaZero 和 MuZero 在围棋、奥赛罗和雅达利游戏上的比较分析

TL;DR该论文介绍了 MiniZero,一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架,并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中的性能表现,发现在两个棋盘游戏中,使用更多模拟通常会产生更高的性能,但 AlphaZero 和 MuZero 的选择可能会根据游戏的特性而有所不同,而在 Atari 游戏中,MuZero 和 Gumbel MuZero 都值得考虑,因为每个游戏都具有独特的特点,不同的算法和模拟会产生不同的结果,此外,论文还介绍了一种称为渐进式模拟的方法,在训练过程中逐渐增加模拟预算,以更有效地分配计算资源,实证结果表明,渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型,该论文为零知识学习算法的未来研究提供了基准,帮助研究人员进行算法选择和与这些零知识学习基准的比较。