VIMA: 多模态提示的通用机器人操作
使用Perceiver Transformer的行为克隆代理能够有效地学习行动,实验表明其在桌面任务上优于不受结构限制的图像转行动代理和3D ConvNet基准。
Sep, 2022
通过语义增强和行为表征,我们开发了一个高效的系统(RoboAgent)来训练具备多任务操作技能的通用智能体,使用少量多样的多模态数据集,能够展示不同的技能并在新颖的场景中表现出很好的泛化性能。
Sep, 2023
通过引入一个有效的框架,从多任务的专家轨迹中学习使用多模式提示进行机器人操作,我们在VIMA-BENCH上评估了方法的功效,并建立了一个新的最先进水平(成功率提高了10%)。此外,我们还展示了我们的模型具有显著的情境学习能力。
Oct, 2023
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
通过引入新颖的机器人操作方法,利用多模态大型语言模型(MLLMs)的强大推理能力,增强操作的稳定性和泛化能力。我们采用fine-tuning方法,在保留MLLM的常识和推理能力的同时,为其提供操作能力。实验结果表明ManipLLM在模拟器和真实环境中均有出色表现。
Dec, 2023
通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究,展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT,该模型能够提供分析和偏好反馈,并验证了所生成的偏好标签的有效性,实验评估表明其对新任务具有有效的泛化能力,并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习,超越了基于最新的预训练表示模型的奖励。
Feb, 2024
通过使用互联网规模的视觉-语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉-语言-动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉-动作策略。我们介绍了OpenVLA,这是一个7B参数的开源VLA,它在多样化的970k真实世界机器人演示数据集上进行了训练。OpenVLA基于Llama 2语言模型和可视编码器,融合了DINOv2和SigLIP的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA在广义操纵方面表现出色,在29个任务和多个机器人实体上的绝对任务成功率上优于RT-2-X(55B)等闭源模型16.5%,并且参数数量仅为其七分之一。我们进一步展示了OpenVLA对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于Diffusion Policy等基于从头开始的模仿学习方法20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于PyTorch的代码库,支持在Open X-Embodiment数据集上规模化训练VLA。
Jun, 2024
本研究解决了机器人学习在数据、泛化和鲁棒性方面的挑战,提出了一种基于预训练视觉-语言模型的流匹配架构,旨在设计有效的通用机器人策略以应对复杂的灵巧任务。研究表明,该模型在零样本任务执行、遵循语言指令以及通过微调获得新技能方面具有显著能力,展现了其在多个机器人任务中的广泛应用潜力。
Oct, 2024
本研究聚焦于机器人学习面临的数据、概括性和鲁棒性挑战,探索特别的机器人基础模型如何克服这些障碍。提出了一种基于预训练的视觉-语言模型的新流匹配架构,能够有效执行复杂和灵活的任务。研究结果显示,该模型在无监督学习下能够立即执行多种任务,并通过微调掌握新技能,对推进通用机器人控制具有重要影响。
Oct, 2024