ICLRJul, 2020

部署期间的自监督政策适应

TL;DR本文旨在研究如何在不同的环境之间进行强化学习模型的泛化,通过自我监督的方法实现模型的持续学习并在 36 个环境中的 31 个上实现了显著的改进,这些环境包括来自 DeepMind 控制套件和 ViZDoom 的多样的仿真环境以及实际机器人操作任务中的连续变化的环境。