VIMA: 多模态提示的通用机器人操作

Oct, 2022

VIMA: 多模态提示的通用机器人操作

VIMA: General Robot Manipulation with Multimodal Prompts

Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou...

TL;DR使用多模态提示设计了一个基于转换器的通用机器人代理(VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。

Abstract

prompt-based learning has emerged as a successful paradigm in natural language processing, where a single general-purpose language model can be instructed to perform any task specified by input prompts. Yet task specification in robotics comes in various forms, such as imitating one-sh

发现论文，激发创造

Perceiver-Actor: 用于机器人操纵的多任务Transformer

使用Perceiver Transformer的行为克隆代理能够有效地学习行动，实验表明其在桌面任务上优于不受结构限制的图像转行动代理和3D ConvNet基准。

Sep, 2022

基于程序的、组合通用的机器人操作

通过提出一种利用语言指令的可执行程序来更好地利用预训练的VL模型的模块化方法，我们可以改善在任务和物体未知情况下的运用和组合泛化能力。

Apr, 2023

机器人操控的语义增强和动作分块的泛化和效率

通过语义增强和行为表征，我们开发了一个高效的系统（RoboAgent）来训练具备多任务操作技能的通用智能体，使用少量多样的多模态数据集，能够展示不同的技能并在新颖的场景中表现出很好的泛化性能。

Sep, 2023

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在VIMA-BENCH上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

ManipLLM: 对象为中心的机器人操作的具身多模态大规模语言模型

通过引入新颖的机器人操作方法，利用多模态大型语言模型（MLLMs）的强大推理能力，增强操作的稳定性和泛化能力。我们采用fine-tuning方法，在保留MLLM的常识和推理能力的同时，为其提供操作能力。实验结果表明ManipLLM在模拟器和真实环境中均有出色表现。

Dec, 2023

借助多模态的大型语言模型增强机器人操作的人工智能反馈

通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究，展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT，该模型能够提供分析和偏好反馈，并验证了所生成的偏好标签的有效性，实验评估表明其对新任务具有有效的泛化能力，并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习，超越了基于最新的预训练表示模型的奖励。

Feb, 2024

OpenVLA：一个开放源代码的视觉语言行动模型

通过使用互联网规模的视觉-语言数据和多样化的机器人演示进行预训练的大型模型，可以改变我们教授机器人新技能的方式：相对于从零开始训练新行为，我们可以对这种视觉-语言-动作（VLA）模型进行微调，以获得稳健、具有广泛适用性的视觉-动作策略。我们介绍了OpenVLA，这是一个7B参数的开源VLA，它在多样化的970k真实世界机器人演示数据集上进行了训练。OpenVLA基于Llama 2语言模型和可视编码器，融合了DINOv2和SigLIP的预训练特征。通过增加数据多样性和新的模型组件，OpenVLA在广义操纵方面表现出色，在29个任务和多个机器人实体上的绝对任务成功率上优于RT-2-X（55B）等闭源模型16.5%，并且参数数量仅为其七分之一。我们进一步展示了OpenVLA对于新环境的有效微调，在涉及多个对象和强大语言基础能力的多任务环境中，具有特别强大的泛化能力，且优于Diffusion Policy等基于从头开始的模仿学习方法20.4%。此外，我们还探索了计算效率；作为额外贡献，我们表明OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调，并通过量化方式进行有效服务，而不会影响下游的成功率。最后，我们发布了模型检查点、微调笔记本以及基于PyTorch的代码库，支持在Open X-Embodiment数据集上规模化训练VLA。

Jun, 2024

$\pi_0$: 一种面向通用机器人控制的视觉-语言-动作流模型

本研究解决了机器人学习在数据、泛化和鲁棒性方面的挑战，提出了一种基于预训练视觉-语言模型的流匹配架构，旨在设计有效的通用机器人策略以应对复杂的灵巧任务。研究表明，该模型在零样本任务执行、遵循语言指令以及通过微调获得新技能方面具有显著能力，展现了其在多个机器人任务中的广泛应用潜力。

Oct, 2024

π₀：用于通用机器人控制的视觉-语言-行动流模型

本研究聚焦于机器人学习面临的数据、概括性和鲁棒性挑战，探索特别的机器人基础模型如何克服这些障碍。提出了一种基于预训练的视觉-语言模型的新流匹配架构，能够有效执行复杂和灵活的任务。研究结果显示，该模型在无监督学习下能够立即执行多种任务，并通过微调掌握新技能，对推进通用机器人控制具有重要影响。

Oct, 2024