LLARVA: 视觉动作指令调整增强机器人学习
LLaRA: 大型语言和机器人助理是一个框架,将机器人动作策略定义为对话,并在训练中通过辅助数据提供改进的响应;通过将视觉输入与文本提示进行处理,能够生成最优策略决策。
Jun, 2024
本研究提出了 LLaVAR 模型,是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的,该模型显着提高了模型在基于文本的 VQA 数据集上的性能,并通过定性分析展示了与人类交互的潜力。
Jun, 2023
通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉 - 语言 - 动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA,这是一个 7B 参数的开源 VLA,它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA 基于 Llama 2 语言模型和可视编码器,融合了 DINOv2 和 SigLIP 的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA 在广义操纵方面表现出色,在 29 个任务和多个机器人实体上的绝对任务成功率上优于 RT-2-X(55B)等闭源模型 16.5%,并且参数数量仅为其七分之一。我们进一步展示了 OpenVLA 对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于 Diffusion Policy 等基于从头开始的模仿学习方法 20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明 OpenVLA 可以通过现代低秩适应方法在消费级 GPU 上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于 PyTorch 的代码库,支持在 Open X-Embodiment 数据集上规模化训练 VLA。
Jun, 2024
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
机器人智能的重要体现是自然互动和自主决策能力,本文引入了一种名为四足机器人视觉语言行为任务(QUAR-VLA)的新范式,通过紧密集成视觉信息和指令生成可执行动作来提高机器人的整体智能,使用 QUAdruped Robotic Transformer(QUART)系列模型将来自不同模态的视觉信息和指令作为输入,为真实世界的机器人生成可执行的动作,并提出了 QUAdruped Robot Dataset(QUARD)用于训练 QUART 模型,我们的广泛评估表明,我们的方法可以得到性能良好的机器人策略,并使 QUART 获得一系列新兴能力。
Dec, 2023
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
使用机器生成的指令跟随数据,通过集成对生成和图像编辑任务的支持,我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集,并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略(语言模型的 LLaMA,图像文本匹配的 SigLIP,文本到图像生成的 StableDiffusion),我们建立了 GenLLaVA,一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力,并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果,为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点,以促进该领域的进一步研究与应用。
Jun, 2024