ICLROct, 2021

强化学习中的在线策略模型误差

TL;DR本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足,通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差,从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结果表明该方法可以显著提高基于模型的方法的表现。