Dec, 2022

从引导式游玩中学习:利用简单辅助任务改进对抗性模仿学习的探索

TL;DR本文提出了一种名为 LfGP 的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP 利用了多个探索性辅助任务的专家演示,强制代理程序探索标准 AIL 可能会忽略的状态和动作,实验结果表明,LfGP 在多任务机器人操纵领域中显著优于 AIL 和行为克隆。