Dec, 2022
从引导式游玩中学习:利用简单辅助任务改进对抗性模仿学习的探索
Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks
TL;DR本文提出了一种名为LfGP的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP利用了多个探索性辅助任务的专家演示,强制代理程序探索标准AIL可能会忽略的状态和动作,实验结果表明,LfGP在多任务机器人操纵领域中显著优于AIL和行为克隆。