Feb, 2024

利用语言反馈模型进行政策改进

TL;DR我们引入了语言反馈模型(LFMs),用于在指令跟随的模仿学习中识别理想行为-有助于实现指令中所述任务的行为。通过使用LFMs识别理想行为进行模仿学习,我们改善了在三个不同的语言基础环境(Touchdown、ScienceWorld和ALFWorld)上强大的行为克隆基线的任务完成率。同时,与使用LLMs直接预测动作相比,LFMs在控制LLMs输出令牌数量的情况下取得了更好的效果。LFMs具有泛化到未见环境的能力,通过一轮适应提高了3.5-12.0%的任务完成率。最后,LFM可以进行修改以提供具有人类可解释性的反馈,而不会损失性能,从而允许人类验证模仿学习中的理想行为。