视觉语言模型作为奖励的来源

Dec, 2023

Vision-Language Models as a Source of Rewards

Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici...

TL;DR使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Abstract

Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building →

generalist agents reinforcement learning reward functions vision-language models clip family of models

发现论文，激发创造

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

以代码为酬励：以 VLMs 强化学习为动力

利用预训练的视觉语言模型（VLMs）来支持强化学习代理的训练，提出了一种名为 VLM-CaR 的框架，通过代码生成从 VLMs 生成密集奖励函数，从而大大减轻了直接查询 VLM 的计算负担，证明了该方法在各种离散和连续环境中生成的密集奖励非常准确，并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。

Feb, 2024

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

可视提示引导下的作用感知强化学习

利用视觉语言模型 (VLMs) 定义的密集奖励，增强了自主强化学习的采样效率，并能够在在线微调步骤中成功完成自然语言描述的真实世界操纵任务。

Jul, 2024

FuRL：基于模糊奖励的强化学习的视觉 - 语言模型

本研究调查了如何利用预训练的视觉语言模型（VLM）用于在线强化学习（RL），特别关注稀疏奖励任务下的奖励错位问题，提出了一种轻量级微调方法（称为 FuRL），通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能，实验证明了该方法的有效性。

Jun, 2024

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024

通过强化学习将大型视觉语言模型细调为决策代理

使用强化学习对视觉语言模型进行微调，提出了一种算法框架来增强其决策能力，验证了连续思维推理的重要性，并展示了在各种任务中超越商业模型的性能。

May, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

VLRM：视觉语言模型用作图像字幕的奖励模型

用强化学习和视觉语言模型（如 CLIP 和 BLIP2-ITM）增强图像描述模型（BLIP2）的无监督方法能够生成更长更全面的描述，并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。

Apr, 2024