视觉语言模型作为成功检测器

Mar, 2023

Vision-Language Models as Success Detectors

Yuqing Du, Ksenia Konyushkova, Misha Denil, Akhil Raju, Jessica Landon...

TL;DR本文介绍了一种使用大型预训练视觉语言模型和人工奖励注释的成功检测方法，将其作为视觉问答问题，研究了在三个不同领域的成功检测和推广属性，证明该方法能在看到未知语言和视觉变化的情况下胜过定制奖励模型。

Abstract

Detecting successful behaviour is crucial for training intelligent agents. As such, generalisable reward models are a prerequisite for agents that can learn to generalise their behaviour. In this work we focus on developing robust success detectors that leverage large, pretrained visio

success detection reward models visual question answering generalisation flamingo

发现论文，激发创造

视觉语言基础模型作为有效的机器人模仿者

通过对开放源代码的视觉 - 语言模型进行简单微调，RoboFlamingo 构建了一个简单而新颖的视觉 - 语言操控框架，并利用单步视觉 - 语言理解的预训练模型、显式策略推测历史信息，通过模仿学习在以语言为条件的操纵数据集上微调。通过在基准测试上超过最先进的性能，表明 RoboFlamingo 能够有效并具有竞争力地将 VLM 适应到机器人控制中，为机器人操作提供了一种具有潜力的经济高效和易于使用的解决方案。

Nov, 2023

视觉语言模型作为奖励的来源

使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Dec, 2023

Flamingo：一种可视化语言模型，用于少样本学习

Flamingo 是一种可视语言模型，具有快速适应新任务的能力，能够仅使用少量注释示例。这种模型通过桥接强大的预训练视觉和语言模型，处理任意交错的视觉和文本数据序列，并无缝地输入图像或视频并进行评估和测试，从而表现出上下文的一步学习能力。

Apr, 2022

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

任务成功并不足够：调查使用视频 - 语言模型作为行为批评家以捕捉不良代理行为

在具体 AI 领域，利用大规模生成模型结合外部验证者，根据验证反馈逐步迭代推导最终解决方案，以验证是否达到说明中的目标条件，以便无缝整合到日常生活中，超越任务成功，和大范围的约束和个人偏好，为此构建一套测试基准，通过全面评估视觉与语言模型在识别视频中不良机器人行为方面的优点和失效模式，提供了有效利用模型评论的指导方针，并展示了将反馈融入政策改进的迭代过程的实用方法。

Feb, 2024

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024