LLARVA: 视觉动作指令调整增强机器人学习

Jun, 2024

LLARVA: 视觉动作指令调整增强机器人学习

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

Dantong Niu, Yuvan Sharma, Giscard Biamby, Jerome Quenum, Yutong Bai...

TL;DR通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Abstract

In recent years, instruction-tuned large multimodal models (LMMs) have been successful at several tasks, including image captioning and visual question answering; yet leveraging these models remains an open question for robotics. Prior LMMs for robotics applications have been extensive

large multimodal models llarva instruction tuning robot learning visual traces

发现论文，激发创造

LLaRA：提升视觉语言策略的机器人学习数据

LLaRA: 大型语言和机器人助理是一个框架，将机器人动作策略定义为对话，并在训练中通过辅助数据提供改进的响应；通过将视觉输入与文本提示进行处理，能够生成最优策略决策。

Jun, 2024

LLaVAR: 文本丰富图像理解增强可视化指导调整

本研究提出了 LLaVAR 模型，是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的，该模型显着提高了模型在基于文本的 VQA 数据集上的性能，并通过定性分析展示了与人类交互的潜力。

Jun, 2023

OpenVLA：一个开放源代码的视觉语言行动模型

通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型，可以改变我们教授机器人新技能的方式：相对于从零开始训练新行为，我们可以对这种视觉 - 语言 - 动作（VLA）模型进行微调，以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA，这是一个 7B 参数的开源 VLA，它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA 基于 Llama 2 语言模型和可视编码器，融合了 DINOv2 和 SigLIP 的预训练特征。通过增加数据多样性和新的模型组件，OpenVLA 在广义操纵方面表现出色，在 29 个任务和多个机器人实体上的绝对任务成功率上优于 RT-2-X（55B）等闭源模型 16.5%，并且参数数量仅为其七分之一。我们进一步展示了 OpenVLA 对于新环境的有效微调，在涉及多个对象和强大语言基础能力的多任务环境中，具有特别强大的泛化能力，且优于 Diffusion Policy 等基于从头开始的模仿学习方法 20.4%。此外，我们还探索了计算效率；作为额外贡献，我们表明 OpenVLA 可以通过现代低秩适应方法在消费级 GPU 上进行微调，并通过量化方式进行有效服务，而不会影响下游的成功率。最后，我们发布了模型检查点、微调笔记本以及基于 PyTorch 的代码库，支持在 Open X-Embodiment 数据集上规模化训练 VLA。

Jun, 2024

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

RT-2：视觉 - 语言 - 行动模型将网络知识转化为机器人控制

通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以 RT-2 为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2 可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Jul, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

QUAR-VLA：四足机器人的视觉 - 语言 - 动作模型

机器人智能的重要体现是自然互动和自主决策能力，本文引入了一种名为四足机器人视觉语言行为任务（QUAR-VLA）的新范式，通过紧密集成视觉信息和指令生成可执行动作来提高机器人的整体智能，使用 QUAdruped Robotic Transformer（QUART）系列模型将来自不同模态的视觉信息和指令作为输入，为真实世界的机器人生成可执行的动作，并提出了 QUAdruped Robot Dataset（QUARD）用于训练 QUART 模型，我们的广泛评估表明，我们的方法可以得到性能良好的机器人策略，并使 QUART 获得一系列新兴能力。

Dec, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

生成式视觉指导调整

使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略（语言模型的 LLaMA，图像文本匹配的 SigLIP，文本到图像生成的 StableDiffusion），我们建立了 GenLLaVA，一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力，并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果，为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点，以促进该领域的进一步研究与应用。

Jun, 2024