OK-Robot: 整合开放知识模型对机器人的重要性
通过使用预训练的视觉-语言模型,开发了一种简单的方法Manipulation of Open-World Objects (MOO)来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真实的移动机械臂上进行了多种实验,发现MOO可以零样本推广到广泛的新对象类别和环境中。
Mar, 2023
本文提出了一种基于语言根据分割掩模的新型范例,来应对日常情况下一系列的抓取和放置机器人操作任务,通过将从掩模中传达的精确语义和几何形状与我们的多视点策略模型相结合,使我们的方法能够感知准确的物体姿态并实现样本高效学习。
Jun, 2023
通过在36.9K个常见家居物体的数据集PhysObjects上针对视觉外观捕捉人类先验知识,我们提出了一种基于物理概念的视觉语言模型(VLM),并将其与基于大语言模型的机器人规划器结合使用,取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外,在真实机器人上展示了物理概念视觉语言模型的好处,提高了任务成功率。
Sep, 2023
通过对开放源代码的视觉-语言模型进行简单微调,RoboFlamingo构建了一个简单而新颖的视觉-语言操控框架,并利用单步视觉-语言理解的预训练模型、显式策略推测历史信息,通过模仿学习在以语言为条件的操纵数据集上微调。通过在基准测试上超过最先进的性能,表明RoboFlamingo能够有效并具有竞争力地将VLM适应到机器人控制中,为机器人操作提供了一种具有潜力的经济高效和易于使用的解决方案。
Nov, 2023
利用开放词汇泛化的方法,本文提出了MOKA(标记开放词汇关键点可利用性)来使用视觉语言模型解决由自由形式语言描述的机器人操作任务,通过在图像上注记关键点和航点的预测,将问题转化为视觉问答问题,并通过上下文学习和策略精炼提升性能,验证并分析了MOKA在以自由形式语言描述的各种操纵任务中的表现,如工具使用、可塑性物体操作和物体重新排列。
Mar, 2024
通过使用互联网规模的视觉-语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉-语言-动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉-动作策略。我们介绍了OpenVLA,这是一个7B参数的开源VLA,它在多样化的970k真实世界机器人演示数据集上进行了训练。OpenVLA基于Llama 2语言模型和可视编码器,融合了DINOv2和SigLIP的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA在广义操纵方面表现出色,在29个任务和多个机器人实体上的绝对任务成功率上优于RT-2-X(55B)等闭源模型16.5%,并且参数数量仅为其七分之一。我们进一步展示了OpenVLA对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于Diffusion Policy等基于从头开始的模仿学习方法20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于PyTorch的代码库,支持在Open X-Embodiment数据集上规模化训练VLA。
Jun, 2024
在未知和动态环境中, 建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉-语言模型的密集三维实体重建, 利用大型语言模型进行空间区域抽象和在线规划, 并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好的成功率和性能, 证明了这种新的框架的有效性。
Jun, 2024
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024
本研究解决了当前移动操控系统在动态环境中应用的局限性,提出了一种新的动态时空语义记忆DynaMem方法。该方法通过构建3D数据结构和利用多模态大语言模型,实现了对移动对象的实时定位和记忆更新,显著提高了在非静态物体上的抓取成功率,达到了70%。
Nov, 2024