Apr, 2020

从次优演示中学习稀疏奖励任务

TL;DR本文提出了自适应模仿学习(SAIL)算法,该算法利用了有限数量的次优演示来实现高度挑战性的稀疏奖励任务,并显著提高了样本效率和最终性能。