Feb, 2024

利用语言反馈模型进行政策改进

TL;DR我们引入了语言反馈模型(LFMs),用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习,我们改善了在三个不同的语言基础环境(Touchdown、ScienceWorld 和 ALFWorld)上强大的行为克隆基线的任务完成率。同时,与使用 LLMs 直接预测动作相比,LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力,通过一轮适应提高了 3.5-12.0% 的任务完成率。最后,LFM 可以进行修改以提供具有人类可解释性的反馈,而不会损失性能,从而允许人类验证模仿学习中的理想行为。