Feb, 2024

RL-VLM-F: 视觉语言基础模型反馈的强化学习

TL;DR提出了一种自动生成奖励函数的方法 RL-VLM-F,通过利用视觉语言基础模型的反馈,从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数,避免了人力成本和试错过程,在各个领域中成功产生了有效的奖励和策略,并优于使用大规模预训练模型的先前方法。