以代码为酬励：以 VLMs 强化学习为动力

Feb, 2024

以代码为酬励：以 VLMs 强化学习为动力

Code as Reward: Empowering Reinforcement Learning with VLMs

David Venuto, Sami Nur Islam, Martin Klissarov, Doina Precup, Sherry Yang...

TL;DR利用预训练的视觉语言模型（VLMs）来支持强化学习代理的训练，提出了一种名为 VLM-CaR 的框架，通过代码生成从 VLMs 生成密集奖励函数，从而大大减轻了直接查询 VLM 的计算负担，证明了该方法在各种离散和连续环境中生成的密集奖励非常准确，并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。

Abstract

pre-trained vision-language models (VLMs) are able to understand visual concepts, describe and decompose complex tasks into sub-tasks, and provide feedback on task completion. In this paper, we aim to leverage these capabilities to support the training of reinforcement learning (RL) ag

pre-trained vision-language models reinforcement learning agents vlm-car code generation dense rewards

发现论文，激发创造

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

视觉语言模型作为奖励的来源

使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Dec, 2023

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

FuRL：基于模糊奖励的强化学习的视觉 - 语言模型

本研究调查了如何利用预训练的视觉语言模型（VLM）用于在线强化学习（RL），特别关注稀疏奖励任务下的奖励错位问题，提出了一种轻量级微调方法（称为 FuRL），通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能，实验证明了该方法的有效性。

Jun, 2024

通过强化学习将大型视觉语言模型细调为决策代理

使用强化学习对视觉语言模型进行微调，提出了一种算法框架来增强其决策能力，验证了连续思维推理的重要性，并展示了在各种任务中超越商业模型的性能。

May, 2024

语言奖励调节预训练强化学习

使用基于学习的奖励函数（LRFs）作为解决稀疏奖励强化学习（RL）任务的手段已经在任务复杂性方面取得了一些稳定的进展。本文提出了一种将 LRFs 作为 RL 的预训练信号的方法，即 $ extbf {LA}$nguage Reward $ extbf {M}$odulated $ extbf {P}$retraining (LAMP)，其利用 Vision-Language Models (VLMs) 的零样本能力作为 RL 的预训练工具，而不是作为下游任务奖励。通过计算大量语言指令与代理器环境中的图像观察之间的对比对齐，LAMP 使用冻结的预训练 VLM 生成嘈杂但有形状的探索奖励。LAMP 与强化学习中的寻求新颖性的探索奖励一起优化这些奖励，以获得受语言条件约束的预训练策略。我们的 VLM 预训练方法与以前使用 LRFs 的方法不同，可以在 RLBench 的机器人操作任务上启动样本效率高的学习。

Aug, 2023

VLRM：视觉语言模型用作图像字幕的奖励模型

用强化学习和视觉语言模型（如 CLIP 和 BLIP2-ITM）增强图像描述模型（BLIP2）的无监督方法能够生成更长更全面的描述，并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。

Apr, 2024

校准的自我奖励视觉语言模型

大规模视觉 - 语言模型通过整合预先训练好的大型语言模型和视觉模型，通过自我奖励方法中引入视觉约束以减少幻觉，提高性能，在十个基准测试和任务中取得了 7.62% 的显著改进。

May, 2024

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024