Nov, 2024

来自视觉语言模型的现实世界离线强化学习

TL;DR本研究解决了在现实世界中使用离线强化学习时,数据集需手动标注奖励标签的问题,尤其在难以确定真实状态时。我们提出一种新系统,通过使用视觉语言模型的偏好反馈自动生成奖励标签,并基于此学习策略。实验表明,该方法在复杂的机器人辅助穿衣任务中表现出色,并在仿真任务中明显优于现有基线方法。