Oct, 2019

提高基于图像的模型自由强化学习的样本效率

TL;DR通过引入辅助损失以及消除后效性的影响,提出了一种简单且有效的方法,可以在MuJoCo控制任务上匹配最新的无模型和有模型算法,同时在观测噪声下表现出鲁棒性,并且过来了以往使用变分自动编码器所面临的发散问题。