ICLRDec, 2019

可变循环模型求解部分可观测控制任务

TL;DR本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。