视觉语言模型是强化学习的零样本奖励模型

Oct, 2023

视觉语言模型是强化学习的零样本奖励模型

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner

TL;DR使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Abstract

reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using →

reinforcement learning pretrained vision-language models reward models vlm-rms mujoco humanoid

发现论文，激发创造

视觉语言模型作为奖励的来源

使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Dec, 2023

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

以代码为酬励：以 VLMs 强化学习为动力

利用预训练的视觉语言模型（VLMs）来支持强化学习代理的训练，提出了一种名为 VLM-CaR 的框架，通过代码生成从 VLMs 生成密集奖励函数，从而大大减轻了直接查询 VLM 的计算负担，证明了该方法在各种离散和连续环境中生成的密集奖励非常准确，并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。

Feb, 2024

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

可视提示引导下的作用感知强化学习

利用视觉语言模型 (VLMs) 定义的密集奖励，增强了自主强化学习的采样效率，并能够在在线微调步骤中成功完成自然语言描述的真实世界操纵任务。

Jul, 2024

VLRM：视觉语言模型用作图像字幕的奖励模型

用强化学习和视觉语言模型（如 CLIP 和 BLIP2-ITM）增强图像描述模型（BLIP2）的无监督方法能够生成更长更全面的描述，并在 MS-COCO Carpathy 测试集上获得了令人印象深刻的 0.90 R@1 CLIP 回忆得分。

Apr, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

FuRL：基于模糊奖励的强化学习的视觉 - 语言模型

本研究调查了如何利用预训练的视觉语言模型（VLM）用于在线强化学习（RL），特别关注稀疏奖励任务下的奖励错位问题，提出了一种轻量级微调方法（称为 FuRL），通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能，实验证明了该方法的有效性。

Jun, 2024

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

语言奖励调节预训练强化学习

使用基于学习的奖励函数（LRFs）作为解决稀疏奖励强化学习（RL）任务的手段已经在任务复杂性方面取得了一些稳定的进展。本文提出了一种将 LRFs 作为 RL 的预训练信号的方法，即 $ extbf {LA}$nguage Reward $ extbf {M}$odulated $ extbf {P}$retraining (LAMP)，其利用 Vision-Language Models (VLMs) 的零样本能力作为 RL 的预训练工具，而不是作为下游任务奖励。通过计算大量语言指令与代理器环境中的图像观察之间的对比对齐，LAMP 使用冻结的预训练 VLM 生成嘈杂但有形状的探索奖励。LAMP 与强化学习中的寻求新颖性的探索奖励一起优化这些奖励，以获得受语言条件约束的预训练策略。我们的 VLM 预训练方法与以前使用 LRFs 的方法不同，可以在 RLBench 的机器人操作任务上启动样本效率高的学习。

Aug, 2023