Jun, 2024

辅助任务蒸馏的增强学习

TL;DR通过辅助任务蒸馏,我们提出了一种增强学习(RL)方法,使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL,并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上,实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习,无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率,并超过使用预训练技能和专家演示的方法。