Jun, 2022

子目标模型的目标空间规划

TL;DR本文介绍了一种新的基于模型的强化学习方法来使用背景计划:将(近似)动态规划更新和无模型更新混合,类似于Dyna架构。我们通过将背景规划限制在一组(抽象)子目标上,并仅学习本地的、子目标条件模型的方法来避免高内存和计算使用率的不足,并证明了我们的GSP算法在各种情况下可以比Double DQN基线学习得更快。