Jul, 2023

思行者:学习规划与行动

TL;DR我们提出了 Thinker 算法,这是一种新颖的方法,使强化学习代理能够与学习的世界模型自主交互并利用它。Thinker 算法通过在环境周围包装一个世界模型,并引入专门用于与世界模型交互的新动作,使代理能够通过向世界模型提议替代方案来进行规划,然后选择一个最终动作在环境中执行。该算法的有效性通过在 Sokoban 游戏和 Atari 2600 基准测试中的实验结果得到了证明,其中 Thinker 算法分别实现了最先进的性能和有竞争力的结果。使用 Thinker 算法训练的代理的可视化结果表明,它们已经学会了有效地利用世界模型进行规划,以选择更好的动作。该算法的普遍性为如何将世界模型用于强化学习以及如何将规划无缝集成到代理的决策过程中打开了一个新的研究方向。