视觉语言模型为强化学习提供可提示的表示

Feb, 2024

视觉语言模型为强化学习提供可提示的表示

Vision-Language Models Provide Promptable Representations for Reinforcement Learning

William Chen, Oier Mees, Aviral Kumar, Sergey Levine

TL;DR通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Abstract

Humans can quickly learn new behaviors by leveraging background world knowledge. In contrast, agents trained with reinforcement learning (RL) typically learn behaviors from scratch. We thus propose a novel approach that uses the vast amounts of general and indexable world knowledge enc

background world knowledge reinforcement learning vision-language models promptable representations embodied rl

发现论文，激发创造

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

视觉语言模型作为奖励的来源

使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Dec, 2023

将互联网规模的视觉 - 语言模型化为具体智能体

本文提出了一种利用预训练的视觉语言模型（VLMs）来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放（HER）技术，我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境，在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。

Jan, 2023

以代码为酬励：以 VLMs 强化学习为动力

利用预训练的视觉语言模型（VLMs）来支持强化学习代理的训练，提出了一种名为 VLM-CaR 的框架，通过代码生成从 VLMs 生成密集奖励函数，从而大大减轻了直接查询 VLM 的计算负担，证明了该方法在各种离散和连续环境中生成的密集奖励非常准确，并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。

Feb, 2024

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

FuRL：基于模糊奖励的强化学习的视觉 - 语言模型

本研究调查了如何利用预训练的视觉语言模型（VLM）用于在线强化学习（RL），特别关注稀疏奖励任务下的奖励错位问题，提出了一种轻量级微调方法（称为 FuRL），通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能，实验证明了该方法的有效性。

Jun, 2024

不需重训练的扩展冻结视觉 - 语言模型：朝着改进机器人感知能力迈进

通过对齐不同类型嵌入空间的方法，本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果，从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。

Aug, 2023

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024