Nov, 2019

通过学习模型规划,掌握雅达利、围棋、国际象棋和将棋

TL;DR本文提出了MuZero算法,它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现,在57款不同的Atari游戏上以及对Go、国际象棋和象棋等游戏的测试中,都表现出了与AlphaZero算法相当的性能,而无需知道游戏规则。