GR-2:一种具有网络规模知识的生成视频-语言-动作模型,用于机器人操作
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以RT-2为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使RT-2在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
通过语义增强和行为表征,我们开发了一个高效的系统(RoboAgent)来训练具备多任务操作技能的通用智能体,使用少量多样的多模态数据集,能够展示不同的技能并在新颖的场景中表现出很好的泛化性能。
Sep, 2023
我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能,采用分解方法从人类视频数据中学习人类如何完成期望任务,并将其转化为机器人的行为,从而实现零样本通用操作。
Dec, 2023
通过大规模视频生成预训练,我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展,提供了新的证据,显示出在多任务视觉机器人操作中,经过视频生成预训练的统一GPT风格转换器具有显著的泛化能力。
Dec, 2023
通过观察人类行为并将其翻译成可执行的动作,本研究介绍了一种基于视频学习的机器人框架Vid2Robot,它通过训练机器人模型利用人类视频和机器人轨迹数据集进行任务执行。该模型利用交叉注意力机制将提示视频特征融合到机器人的当前状态中,并生成能够模仿所观察任务的适当动作,大幅提升执行效果,同时显示着在真实世界应用中的潜力。
Mar, 2024
通过使用网络视频进行预测性互动计划的学习,结合机器人在真实世界中的任务无关转换,以及通过少量具体示范进行训练的闭环策略预测残余动作,我们提出了一种可扩展学习的路径预测方法,实现了任务零-shot机器人操作,并在未见任务、对象和场景上呈现了大量真实世界机器人操作结果。
May, 2024
本研究解决了机器人操作中获取完全标注数据的困难,提出了一种名为GR-MG的新方法,能同时使用语言指令和目标图像来提高机器人的泛化能力。研究表明,GR-MG在模拟实验中提高了连续完成任务的平均数量,并在真实机器人实验中显著提升了成功率,体现了其在利用部分标注数据方面的潜力。
Aug, 2024
本研究解决了机器人在复杂现实场景中实现推广学习时数据不足的问题。通过提出基于图像-文本生成模型的可语义控制的增强框架,研究展示了如何快速扩增机器人数据集并产生丰富的变化,从而提高机器人的真实场景推广能力。最显著的发现是,该方法能够在无人成本的情况下有效提升机器人学习的推广性能。
Sep, 2024
本研究解决了机器人操作政策在未见物体类型和新动作任务中的泛化问题。通过预测网络数据中的运动信息,采用人类视频生成的方法来指导机器人操作,展示了如何利用轻松获取的网络数据训练的生成模型,使机器人能够完成之前未接触过的任务。我们的实验结果表明,该方法显著提高了机器人在多种真实场景中的操作能力。
Sep, 2024
本研究针对缺乏适当模拟基准测试的问题,提出了GemBench,一个新颖的基准,用于评估视觉-语言机器人操作策略的推广能力。通过3D-LOTUS和3D-LOTUS++方法,该研究实现了在GemBench上新任务的先进性能,设立了机器人操作领域的推广新标准。
Oct, 2024