ICMLFeb, 2018

使用变化状态表的高效基于模型的深度强化学习

TL;DR使用 VaST 的优先级扫描规划方法,提高强化学习智能体的样本效率。在 3D 导航等任务中,VaST 能够快速学习并有效地适应奖励或过渡概率的突然变化。