任务成功并不足够：调查使用视频 - 语言模型作为行为批评家以捕捉不良代理行为

Feb, 2024

任务成功并不足够：调查使用视频 - 语言模型作为行为批评家以捕捉不良代理行为

"Task Success" is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors

PDF

Lin Guan, Yifan Zhou, Denis Liu, Yantian Zha, Heni Ben Amor...

TL;DR在具体 AI 领域，利用大规模生成模型结合外部验证者，根据验证反馈逐步迭代推导最终解决方案，以验证是否达到说明中的目标条件，以便无缝整合到日常生活中，超越任务成功，和大范围的约束和个人偏好，为此构建一套测试基准，通过全面评估视觉与语言模型在识别视频中不良机器人行为方面的优点和失效模式，提供了有效利用模型评论的指导方针，并展示了将反馈融入政策改进的迭代过程的实用方法。

Abstract

large-scale generative models are shown to be useful for sampling meaningful candidate solutions, yet they often overlook task constraints and user preferences. Their full power is better harnessed when the model

large-scale generative models task constraints user preferences verification embodied ai

发现论文，激发创造

视频 - 语言评论家：用于语言条件机器人的可转移奖励函数

基于视频 - 语言评论家的奖励模型，可以在现有的跨体现数据上进行训练，使用对比学习和时间排序目标，对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中，通过在 Open X-Embodiment 数据上训练奖励模型，实现了比仅稀疏奖励模型更高效的策略训练，尽管存在显著的领域差异。使用 Meta-World 上的具有挑战性任务推广设置的领域数据进一步证明，相比先前使用二元分类训练的语言条件奖励模型，静态图像或不利用视频数据中的时间信息，我们的方法实现了更高效的训练。

May, 2024

借助多模态的大型语言模型增强机器人操作的人工智能反馈

通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究，展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT，该模型能够提供分析和偏好反馈，并验证了所生成的偏好标签的有效性，实验评估表明其对新任务具有有效的泛化能力，并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习，超越了基于最新的预训练表示模型的奖励。

Feb, 2024

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

视觉语言模型作为奖励的来源

使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Dec, 2023

基于视觉语言模型的指令增强机器人技能习得

本论文介绍了一种名为 DIAL 的方法，利用半监督的语言标签，结合 CLIP 的语义理解，将知识传播到大型未标记的数据集中，并在增强的数据集上训练语言条件下的策略，从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。

Nov, 2022

从离线数据和众包注释中学习语言相关机器人行为

本文研究了使用自然语言标签并结合机器人交互数据集，来学习规划机器人视觉操作任务的问题，并发现此方法在具有一定自由度的语言规划任务中表现更优秀，成功地完成了使用自然语言描述的物品移动任务。

Sep, 2021

通过强化学习将大型视觉语言模型细调为决策代理

使用强化学习对视觉语言模型进行微调，提出了一种算法框架来增强其决策能力，验证了连续思维推理的重要性，并展示了在各种任务中超越商业模型的性能。

May, 2024

将互联网规模的视觉 - 语言模型化为具体智能体

本文提出了一种利用预训练的视觉语言模型（VLMs）来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放（HER）技术，我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境，在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。

Jan, 2023

GameVLM：基于视觉语言模型和零和博弈的机器人任务规划决策框架

该研究介绍了一个多智能体框架 (GameVLM)，使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程，通过引入零和博弈理论来解决不同智能体之间的一致性问题，并得出最优解，实验证明该框架具有 83.3% 的平均成功率。

May, 2024

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024