本研究提出了一种基于视觉反馈的精细操作任务解决方案,结合第三人称相机和机器人手腕上的自我中心相机的可视化反馈,使用 Transformers 跨视图关注机制来有效融合两个视图的信息,并将其作为强化学习策略的输入。实验结果表明,该方法相对于基线(single-view, multi-view)有明显的学习优势,并能够成功地转移到具有不稳定摄像头、无状态信息和高任务变异度的实际机器人操作任务中。
Jan, 2022
本研究旨在利用标注不足的人类视频示范来改进基于视觉的机器人操作学习数据,通过引入图像遮蔽的方法,提高眼手相机机器人操作策略的成功率达 58%。
Jul, 2023
本文提出了一种方法来解决复杂开放环境下机器人操作的问题,该方法基于先前训练的通用视觉模型作为感知系统的对象先验,并引入了一个基于对象的注意机制来确定相关对象,通过少数轨迹或演示将这些对象纳入学习策略,使用强化学习可以学习多种操作任务。
Aug, 2017
我们提出了一种基于提示导向的视角无关学习框架,通过少量的自我视角视频实现从第三人称视角到第一人称视角的视角适应,通过交互式遮罩和视角感知提示来捕捉精细的动作信息和学习视角无关的表示,实验证明了我们的方法在视角适应和视角泛化方面的高效性和有效性。
Mar, 2024
本文调查了多个已有的数据集与方法,致力于采用 'egocentric vision' 技术实现手部的定位、动作理解和人机交互,展示并提供了关于手部注释的突出数据集列表。
Dec, 2019
本研究通过收集儿童的第一人称图像来分析他们所接受到的训练数据,并就儿童如何通过手操作物体来控制所接受到的监督信号进行探究。实验结果表明,通过手控制监督信号比没有手的效果更好,并且即使只有少量图像可用,这种趋势是一致的。
Jun, 2019
机器人通过观察大规模人类视频学习可以增强对机器人操纵的泛化性和样本效率。
Feb, 2024
该研究探讨了人工智能代理在存在物体干扰的情况下,学习协同控制夹持器和相机,以强化学习策略来完成目标。其中,手 / 眼控制器通过物体中心化注意力结构进行处理,学习如何移动相机来保证物体始终在视野内,并与夹持器协同完成任务。此外,环境难度的课程设计,对最终的动态视野 / 夹持策略影响显著。实验结果表明,该方法在多样化的杂乱环境中胜过静态相机设置。
Nov, 2018
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022
通过从单个人类视频中提取以对象为中心的操纵计划并推导出条件为提取计划的策略,我们提出了一种以对象为中心的方法,为机器人学习基于视觉的操纵技能提供支持。我们的方法允许机器人从 iPad 等日常移动设备捕获的视频中学习,并将策略推广到具有不同视觉背景、摄像机角度、空间布局和新颖对象实例的部署环境中。通过对短程和长程任务进行系统评估,我们展示了 ORION 在从单个人类视频中学习开放世界中的有效性。
May, 2024