ICLRNov, 2020

论规划在基于模型的深度强化学习中的作用

TL;DR本文研究了 MuZero,一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现,阐述了规划在强化学习中的作用,以及如何在规划过程中优化算法,提高表现,并指出单独采用规划无法实现强的泛化能力。