- HumanPlus: 人形机器人的人体投射与模仿
通过使用模拟训练和自我影子技术,本文介绍了一个全栈系统,使得机器人能够通过人类数据学习运动和自主技能。
- CVPR关于将自心视觉应用于工业场景的研究
利用第一人称视角的环绕视觉设备,改进和增强工业使用场景中的数据采集、注释、标记和下游应用,为传统工业机器视觉工作流提供补充。
- 通过深度强化学习从自我中心视觉中学习机器人足球
我们运用多智能体深度强化学习(RL)通过自我中心的 RGB 视觉训练端到端的机器人足球策略,解决了现实世界机器人领域中的许多挑战,包括主动感知、灵活的全身控制和长时间跨度的计划等。该论文是首次展示了通过将原始像素观测映射到关节级动作的端到端 - 自我的场景感知人体轨迹预测
利用身体携带的相机和传感器,通过对用户的视角进行全景导航数据收集,提出了一种基于周围静态场景的人体运动预测方法,该方法利用扩散模型生成潜在的未来轨迹分布,并引入了一种紧凑表示方法来编码用户对环境的视觉记忆,以及一种高效的样本生成技术来加速扩 - CVPR单眼单视角到双视角的视角自适应用于主观性 3D 手势姿态估计
该研究论文通过提出一种新颖的 Single-to-Dual-view 适应(S2DHand)解决方案,将单视图估计器无监督地适应双视图,通过使用两个立体约束条件生成伪标签,可在不同相机设置下应用于任意双视图对,显著改善了在数据集内和数据集间 - LALM:基于语言模型的长期行动预测
使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位,通过整合动作识别模型与视觉 - 语言模型,利用过去的事件信息进行动作预测,达到了在不同复杂活动中的泛化能力。
- 学习基于概念的视觉因果转换和符号推理用于视觉规划
我们提出了一个可解释且具有通用性的视觉规划框架,包括一种新颖的基于替代的概念学习器(SCL),通过学习符号抽象和推理的任务规划,以及将视觉因果转换与语义相似的现实世界行为联系起来的视觉因果转换模型(ViCT)。通过使用学习的表示和因果转换来 - MM自我中心视觉的未来展望
对于可以整合到日常生活中的可穿戴计算机、外置摄像头和数字叠加技术等未来的先知性研究,本文通过以人物为基础的故事来描绘未来,并提供了之前定义的研究任务与未来之间的映射,对每个任务进行了调研,包括开创性的作品、最新技术方法和可用数据集,然后反思 - CVPR自我中心的三维动作目标预测
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
- 自我调控学习用于主观视频活动预测
本文提出了一种基于自我调节学习的框架来解决标准递归序列预测在 egocentric 视觉中存在的误差积累问题,同时通过多任务学习进行联合特征学习,明显优于现有的最新技术,可以精确地识别支持活动语义的动作和对象概念。
- MM传感器辅助的自我中心视频字幕生成与动态模态注意力
本文提出了一种新的通过传感器增强的主观视频字幕生成任务,并提出了应用多模态数据和关注机制的方法,以提高主观视频字幕生成的效率。结果表明,使用传感器数据作为补充数据可以提高主观视频字幕生成的效率,并且我们提出的方法表现优于其他方法。
- ECCV基于 3D 地图的自我中心活动识别及定位
提出了一种基于深度概率模型的方法,结合视角与环境信息,实现对运动轨迹和动作识别的 3D 场景理解与定位
- 自我中心视角下手部分析:综述
本文调查了多个已有的数据集与方法,致力于采用 'egocentric vision' 技术实现手部的定位、动作理解和人机交互,展示并提供了关于手部注释的突出数据集列表。
- CVPRALFRED: 为日常任务解释基础指令的基准测试
ALFRED 是一个用于学习自然语言指令和自我中心视觉到家庭任务动作序列映射的基准测试,包括 25k 个自然语言指令的交互式视觉环境的专家演示,并在序列长度,动作空间和语言方面比现有的视觉和语言任务数据集更复杂。
- 以自我为中心的手部跟踪和基于对象的人类动作识别
该论文研究了从第一人称视角获取图像和视频的发展趋势,采用图像识别和区域跟踪技术进行视觉场景中手的识别和动作的分类,表明使用区域兴趣描述视频的信息可以被依靠,来对与手有关的人体动作进行分类。
- CVPR野外手部分割的分析
本文研究了一种用于自主视角视频中手部分割的方法,通过使用 RefineNet 进行 fine-tune,得出了在具有挑战性的场景中更好的结果,并收集了两个新的数据集来支持实验结果。同时,本文展示了通过手部分割训练 CNN 模型可以提高手部活 - MM基于时间连接序列的自我中心视频描述
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
- 从主体视角视频中估算 3D 身体姿态:看到看不见的姿态
通过利用环境的动态运动和静态构造特征,以及能够推断身体姿态序列的新型最小化能量模型,我们提出了一种高效的基于学习的方法来推断佩戴 egocentric 相机的人体姿态的 3D 关节位置,进一步改进了基于深度学习的图像直接姿态回归等可能的替代