自动化现实世界机器人:利用视觉语言模型操控一切
通过使用预训练的视觉 - 语言模型,开发了一种简单的方法 Manipulation of Open-World Objects (MOO) 来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真实的移动机械臂上进行了多种实验,发现 MOO 可以零样本推广到广泛的新对象类别和环境中。
Mar, 2023
我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能,采用分解方法从人类视频数据中学习人类如何完成期望任务,并将其转化为机器人的行为,从而实现零样本通用操作。
Dec, 2023
本研究通过模型强化学习、演示增强的方法,构建了一个能够直接在真实世界中学习联系丰富的灵巧操纵技能的系统 MoDem-V2,在模拟和实际环境中进行了实证研究,为直接在真实世界中进行演示增强的视觉模型强化学习提供了成功的案例。
Sep, 2023
以多任务学习为基础,提出一种通过演示学习从而训练低成本机械臂控制器,以便完成数个拾取放置任务及非预抓取式操控操作的技术,使用原始图像作为输入并生成机器人臂路径的基于循环神经网络的控制器,参数在任务之间共享;同时结合基于 VAE-GAN 重建以及自回归多模态行为预测的控制器模型。结果表明,可以通过行为克隆直接从原始图像中学习复杂的操纵任务,例如拾起毛巾、擦拭物体并将毛巾放回原位等,权重共享和基于重构的正则化大大提高了泛化性和鲁棒性,同时同时训练多个任务能够增加所有任务的成功率。
Jul, 2017
本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法,该方法可以扩展最近开发的策略搜索方法,并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹,然后将这些轨迹统一到一个单一的控制策略中。
Jan, 2015
通过从单个人类视频中提取以对象为中心的操纵计划并推导出条件为提取计划的策略,我们提出了一种以对象为中心的方法,为机器人学习基于视觉的操纵技能提供支持。我们的方法允许机器人从 iPad 等日常移动设备捕获的视频中学习,并将策略推广到具有不同视觉背景、摄像机角度、空间布局和新颖对象实例的部署环境中。通过对短程和长程任务进行系统评估,我们展示了 ORION 在从单个人类视频中学习开放世界中的有效性。
May, 2024
本文介绍了一种用于视觉模仿学习的简单方法,可以从一个人类演示中学习机器人操作任务,而无需先前了解与对象的交互情况,并且可以通过自监督学习进行训练。在实现过程中,该方法将模仿学习建模为状态估计问题,以目标交互开始时末端执行器的姿态作为状态,在自监督训练过程中让末端执行器的摄像头围绕对象自动移动。 最终,在测试时,机器人通过一条线性路径移动到预测的状态,然后简单地重放演示的末端执行器速度,从而获得了一个复杂的交互轨迹,而无需明确学习策略。在常见的 8 个任务上进行的实现结果表明,这种方法可以从单个人类演示中学习出多样的技能,并产生稳定且可解释的控制器。
May, 2021
本文利用基础模型解决机器人抓取检测的挑战,通过使用基础模型创建全新的大规模抓取数据集 Grasp-Anything,该数据集在多样性和规模上超过了先前的数据集,并成功实现了零样本抓取检测的视觉任务和实际机器人实验。
Sep, 2023
该研究提出一种基于文本至图像转换的数据扩充方法,命名为 ROSIE,通过在现有的机器人操作数据集上应用文本引导扩充数据的方法,我们可以在新的场景和任务中实现更好的机器人操作性能和鲁棒性。
Feb, 2023