ICLRDec, 2020

基于技能空间规划的无需重置的终身学习

TL;DR论文提出了一种基于高阶技能抽象规划的无剧本生涯强化学习框架 LiSP,该框架使用内在奖励进行技能学习并使用学到的动力学模型进行规划,能够在不断变化的非稳态非剧本的环境中取得成功,甚至有助于从离线数据中发现技能,减少与现实世界的交互。