Feb, 2024

用于单示范模仿学习的专家接近度作为替代奖励

TL;DR单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解,在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中,该方法胜过现有的 IL 方法且达到专家级性能。