ICLRJan, 2024

协调空间和时间抽象以实现目标表征

TL;DR通过引入空间和时间目标抽象的三层层次强化学习(HRL)算法提高目标表示性能,评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。