ICMLJun, 2018

自共轨迹自编码器:轨迹嵌入的分层强化学习

TL;DR本文提出了一种用于连续性轨迹的生成式模型 ——SeCTAR,该模型结合了变分自编码器和深层强化学习的思想,并提出了一种用于学习 latent representations 的方法。通过在学习到的 latent space 中进行 model-based planning,该模型能够有效地完成多阶段的强化学习任务,超越了标准强化学习方法和以往用于层级推理、model-based planning、探索的方法。