ICMLJun, 2024
FuRL:基于模糊奖励的强化学习的视觉 - 语言模型
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning
Yuwei Fu, Haichao Zhang, Di Wu, Wei Xu, Benoit Boulet
TL;DR本研究调查了如何利用预训练的视觉语言模型(VLM)用于在线强化学习(RL),特别关注稀疏奖励任务下的奖励错位问题,提出了一种轻量级微调方法(称为 FuRL),通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能,实验证明了该方法的有效性。