QUAR-VLA：四足机器人的视觉 - 语言 - 动作模型

Dec, 2023

QUAR-VLA：四足机器人的视觉 - 语言 - 动作模型

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots

Pengxiang Ding, Han Zhao, Zhitao Wang, Zhenyu Wei, Shangke Lyu...

TL;DR机器人智能的重要体现是自然互动和自主决策能力，本文引入了一种名为四足机器人视觉语言行为任务（QUAR-VLA）的新范式，通过紧密集成视觉信息和指令生成可执行动作来提高机器人的整体智能，使用 QUAdruped Robotic Transformer（QUART）系列模型将来自不同模态的视觉信息和指令作为输入，为真实世界的机器人生成可执行的动作，并提出了 QUAdruped Robot Dataset（QUARD）用于训练 QUART 模型，我们的广泛评估表明，我们的方法可以得到性能良好的机器人策略，并使 QUART 获得一系列新兴能力。

Abstract

The important manifestation of robot intelligence is the ability to naturally interact and autonomously make decisions. Traditional approaches to robot control often compartmentalize perception, planning, and decision-making, simplifying system design but limiting the synergy between d

robot intelligence vision-language-action tasks quar-vla quadruped robotic transformer quart models

发现论文，激发创造

3D-VLA：一个基于三维视觉 - 语言 - 动作的生成式世界模型

提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了 3D-VLA 在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

OpenVLA：一个开放源代码的视觉语言行动模型

通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型，可以改变我们教授机器人新技能的方式：相对于从零开始训练新行为，我们可以对这种视觉 - 语言 - 动作（VLA）模型进行微调，以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA，这是一个 7B 参数的开源 VLA，它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA 基于 Llama 2 语言模型和可视编码器，融合了 DINOv2 和 SigLIP 的预训练特征。通过增加数据多样性和新的模型组件，OpenVLA 在广义操纵方面表现出色，在 29 个任务和多个机器人实体上的绝对任务成功率上优于 RT-2-X（55B）等闭源模型 16.5%，并且参数数量仅为其七分之一。我们进一步展示了 OpenVLA 对于新环境的有效微调，在涉及多个对象和强大语言基础能力的多任务环境中，具有特别强大的泛化能力，且优于 Diffusion Policy 等基于从头开始的模仿学习方法 20.4%。此外，我们还探索了计算效率；作为额外贡献，我们表明 OpenVLA 可以通过现代低秩适应方法在消费级 GPU 上进行微调，并通过量化方式进行有效服务，而不会影响下游的成功率。最后，我们发布了模型检查点、微调笔记本以及基于 PyTorch 的代码库，支持在 Open X-Embodiment 数据集上规模化训练 VLA。

Jun, 2024

RT-2：视觉 - 语言 - 行动模型将网络知识转化为机器人控制

通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以 RT-2 为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2 可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Jul, 2023

LLARVA: 视觉动作指令调整增强机器人学习

通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Jun, 2024

LLaRA：提升视觉语言策略的机器人学习数据

LLaRA: 大型语言和机器人助理是一个框架，将机器人动作策略定义为对话，并在训练中通过辅助数据提供改进的响应；通过将视觉输入与文本提示进行处理，能够生成最优策略决策。

Jun, 2024

跨越语言、视觉和行动：多模态 VAEs 在机器人操作任务中的应用

我们关注机器人操作中无监督的视觉 - 语言 - 行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Apr, 2024

RoboUniView: 统一视角表征的视觉语言模型用于机器人操作

利用视觉语言模型（VLMs）进行机器人操纵的研究提出了一种新的范式，旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异，该研究提出了 RoboUniView 方法，该方法从多个视角学习统一的视图表示，并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界，不受机器人平台摄像机参数的限制，并在 CALVIN 基准测试中获得了最先进的性能，将成功率从 88.7％提高到 96.2％。此外，该模型还表现出卓越的适应性和灵活性：它在未知摄像机参数下保持高性能，可以利用具有不同摄像机参数的多个数据集，并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。

Jun, 2024

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

使用视觉 - 语言模型进行四足机器人适应的常识推理

通过利用视觉 - 语言模型（VLM）的通识推理能力，以及 VLM 在上下文适应和多技能规划方面的关键组件，我们提出了 VLM-Predictive Control（VLM-PC）系统，能够帮助双足机器人在处理困难、模糊的情况下做出自适应行为选择，从而使机器人能够在多样复杂的情景中自主感知、导航和行动，而无需环境特定的工程或人类引导。

Jul, 2024