Aug, 2020

针对复杂观测的对比型变分强化学习

TL;DR通过强化学习中的对比变分方法来解决视觉观测中的复杂性问题,在 Mujoco 任务和机器人推箱子任务中达到了与现有方法相当的状态,并在自然 Mujoco 任务中显著优于它们。