Dec, 2023

LiFT: 以基础模型为导师的无监督强化学习

TL;DR通过基础模型作为教师,我们提出了一个框架,指导一个强化学习代理获取语义有意义的行为,而无需人类反馈。在我们的框架中,代理从大型语言模型中接收在训练环境中基于任务的指令。然后,一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能,而之前的无监督技能发现方法则困难重重。此外,我们讨论了使用现成的基础模型作为教师所面临的挑战,并介绍了我们的努力来解决这些挑战。