ICLRJun, 2020

学习不带重建的强化学习不变表示

TL;DR研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离,并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现,测试了第一人称高速公路驾驶任务,其中方法学习了对云、天气和时间的不变性,最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。