ICMLJul, 2021

通过预测观察来模仿

TL;DR本文基于未来观察奖励模型,提出了一种新的依靠观察数据进行模仿学习的方法,可以在连续控制任务中表现出与人类专家相当的性能,同时在存在与任务无关的观察数据时表现出鲁棒性。