使用Perceiver Transformer的行为克隆代理能够有效地学习行动,实验表明其在桌面任务上优于不受结构限制的图像转行动代理和3D ConvNet基准。
Sep, 2022
该论文提出了一种新的模仿学习系统 OPTIMUS,通过模仿 TAMP 代理来训练大规模视觉运动装置策略,从而介绍了一种专门为模仿学习策划的 TAMP 数据生成流程,并演示了 OPTIMUS 可以解决各种挑战性的基于视觉的操作任务。
May, 2023
该论文提出了一种自监督的感知动作预训练方法,称为RPT,使用转换器操作传感动作令牌的序列,能够处理latent视觉表示,能够扩展到10倍大型模型,并可在真正的机器人上实现10 Hz的推断。
Jun, 2023
提出了一个基于视觉目标调节的决策转换器,命名为RoboCat,它能够消耗多体验行为标记的视觉经验,用于机器人操作的基础模型,并展示了模型对新任务和机器人的泛化能力,并可用于生成下一轮训练集的数据。
本研究旨在利用标注不足的人类视频示范来改进基于视觉的机器人操作学习数据,通过引入图像遮蔽的方法,提高眼手相机机器人操作策略的成功率达58%。
Jul, 2023
人类具有内在的通用视觉表征,使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能,通过任务融合解码器指导表示学习,使得对于所有感知技能来说,学习编码的结构能够更好地表示重要信息,最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器(R3M、MVP和EgoVLP)的表示进行了改进,提升了下游操控策略的学习性能。
Oct, 2023
机器人通过观察大规模人类视频学习可以增强对机器人操纵的泛化性和样本效率。
Feb, 2024
通过预测交互进行操纵的学习,提取可视化表示,并且在真实世界和仿真环境中实现了10%至64%的显著性改进。
Jun, 2024
在这篇论文中,我们提出了一种视觉-运动策略学习框架,该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段,我们生成了一个以新颖场景的图像为条件的任务执行示例,并直接使用这个合成的执行结果来控制机器人。我们的主要观点是,使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法,并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。
本研究解决了机器学习在机器人操作中的普适性和适应性问题,提出了一种利用现实视频生成传感器-运动机器人轨迹的新方法。通过在共享3D空间中提升人手和被操作物体,研究显示对基于这一生成模型的政策进行微调,可以实现高效的样本适应,同时提高适用性和鲁棒性。
Sep, 2024