ICMLJun, 2024

FuRL:基于模糊奖励的强化学习的视觉 - 语言模型

TL;DR本研究调查了如何利用预训练的视觉语言模型(VLM)用于在线强化学习(RL),特别关注稀疏奖励任务下的奖励错位问题,提出了一种轻量级微调方法(称为 FuRL),通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能,实验证明了该方法的有效性。