RVT-2: 从少量示范中学习精确操作
本研究提出 RVT,一种基于多视角变形器的三维物体操作方法,在模拟和实际环境中均表现出色,相对于现有方法,其训练速度快 36 倍,推理速度快 2.3 倍,并仅需每项任务约 10 次演示即可达到良好的效果。
Jun, 2023
以多任务学习为基础,提出一种通过演示学习从而训练低成本机械臂控制器,以便完成数个拾取放置任务及非预抓取式操控操作的技术,使用原始图像作为输入并生成机器人臂路径的基于循环神经网络的控制器,参数在任务之间共享;同时结合基于 VAE-GAN 重建以及自回归多模态行为预测的控制器模型。结果表明,可以通过行为克隆直接从原始图像中学习复杂的操纵任务,例如拾起毛巾、擦拭物体并将毛巾放回原位等,权重共享和基于重构的正则化大大提高了泛化性和鲁棒性,同时同时训练多个任务能够增加所有任务的成功率。
Jul, 2017
本研究通过模型强化学习、演示增强的方法,构建了一个能够直接在真实世界中学习联系丰富的灵巧操纵技能的系统 MoDem-V2,在模拟和实际环境中进行了实证研究,为直接在真实世界中进行演示增强的视觉模型强化学习提供了成功的案例。
Sep, 2023
本研究探讨了预先在多样化人类视频数据上进行训练的视觉表示如何实现对下游机器人操作任务的数据高效学习。我们使用时间对比学习、视频语言对齐和 L1 惩罚的组合来预先训练 Ego4D 人类视频数据集的视觉表示。最终结果是一个名为 R3M 的表示,可用作下游策略学习的静态感知模块。在 12 个模拟机器人操作任务中,我们发现与从头开始训练以及与 CLIP 和 MoCo 等最先进的视觉表示相比,R3M 可将任务成功率提高 20%以上。此外,R3M 使 Franka Emika Panda 手臂仅使用 20 个演示即可在真实的、杂乱的公寓中学习一系列操作任务。
Mar, 2022
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
人类具有内在的通用视觉表征,使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能,通过任务融合解码器指导表示学习,使得对于所有感知技能来说,学习编码的结构能够更好地表示重要信息,最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器(R3M、MVP 和 EgoVLP)的表示进行了改进,提升了下游操控策略的学习性能。
Oct, 2023
本研究提出了主动任务随机化(ATR)的方法,通过自动创建合理而新颖的任务,学习了一种适用于顺序操作的视觉运动技能,证明了这种方法比基线方法效果更好。
Nov, 2022
Autonomous robotic systems capable of learning manipulation tasks can be transformed through Agent-Agnostic representations for Manipulation (Ag2Manip), which overcomes domain gaps, enhances generalizability, and achieves significant improvements in performance.
Apr, 2024
该研究揭示家庭机器人在执行长期任务时通过使用三维编码和视觉语言模型可实现客观目标定位;通过实证研究,该研究表明该方法优于以往的同类工作并适用于实际机器人平台。
Jan, 2023