RT-1:用于实际规模控制的机器人变压器
本文提出 RoboNet,一个用于共享机器人经验的开放数据库,结合视觉先见性和监督逆模型两种学习算法,用于视觉引导的机器人操作的泛化模型学习,其预训练和微调性能超过使用 4 倍至 20 倍更多数据的机器人特定培训方法。
Oct, 2019
研究一种大规模集体机器人学习系统,可以同时获取多项行为并跨越不同任务,通过 MT-Opt 来学习广泛技能,并证明其在结构相似的新任务上可以泛化并且可以通过利用过去的经验更快地获取独特的新任务,从而提高系统的性能和功能。
Apr, 2021
通过开发多模态、多任务、视觉 - 语言 - 行为模型,本文提出一条路径,以增加机器人辅助手术中机器人的自治性,最终我们认为,机器人辅助手术能够从通用模型中获益,并提供三个指导性行动以增加机器人辅助手术的自治性。
Jan, 2024
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
该文呈现了一种用于采矿最新大规模基础模型中的知识的具体想法,其目的是将低级技能学习扩展至规模化,从而实现授予通才机器人的基础模型,并享有在各种现实场景中执行多种任务的能力。
May, 2023
该研究提出一种基于文本至图像转换的数据扩充方法,命名为 ROSIE,通过在现有的机器人操作数据集上应用文本引导扩充数据的方法,我们可以在新的场景和任务中实现更好的机器人操作性能和鲁棒性。
Feb, 2023
建立具有普适性的通用机器人系统一直是人工智能领域的长期目标。本研究调查了如何将自然语言处理(NLP)和计算机视觉(CV)领域的基础模型应用于机器人领域,并探讨了构建面向机器人的基础模型的可能形式,以及使用基础模型实现通用机器人系统所面临的主要挑战和未来方向。
Dec, 2023
AutoRT 利用基础模型扩展操作机器人在未知场景中的部署,通过视觉 - 语言模型进行场景理解和定位,并利用大规模语言模型提出多样且新颖的指令,实现对机器人群体的指导数据收集,从而显著扩大机器人学习的数据规模。
Jan, 2024
本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化,当扩展真实机器人的数据采集到 100 个不同的任务时,我们发现此系统可以实现 24 个未见过的操作任务,平均成功率为 44%。
Feb, 2022
本文提出了一种名为 MetaMorph 的 Transformer 方法,用于学习模块化机器人设计空间中的通用控制器,通过大规模预训练在各种机器人形态上实现组合泛化能力,并证明了可以将预训练策略用于高效的样本转移。
Mar, 2022