从自我中心视频中的三维场景中实例追踪
通过使用新的基于 transformer 模型的框架,结合场景信息和长时空上下文,利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态,并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。
Dec, 2023
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022
我们介绍了一种重建第二人称 3D 人体网格时间序列的新任务,并通过优化方法的应用解决了视角独特的自我中心视频人体捕捉的技术难题,从而比之前的单眼视频人体动作捕捉方法更准确地估计人体姿态和形状。
Nov, 2020
提出了 EgoHumans 数据集,用于改进以往单人或仅局限于室内的 egocentric human 3D 姿势估计和跟踪算法,利用可穿戴相机配备的眼镜的多视角构建全面的 egocentric multi-human 数据集,并采用多流变压器体系结构和显式 3D 空间推理来估计和跟踪人体姿态。
May, 2023
借助底部 VR 设备上安装的鱼眼相机捕捉的单目图像,使用编码器 - 解码器架构和新型多分支解码器,实现了针对自我中心 3D 人体姿势估计的解决方案,并提出了一种大规模的照片逼真的合成数据集 xR-EgoPose。这项工作在合成和实际数据集上与现有算法相比,准确率有大幅提高。
Nov, 2020
本文提出了一种基于立体视觉的方法,用于在动态自动驾驶情景下跟踪摄像机姿态和三维语义对象,该方法使用易于标注的二维检测和离散视点分类结合轻量级语义推理方法获取粗略的三维物体测量,并基于当前的物体感知相机姿态跟踪实现物体位置的估计与 3D 建模以获得精确度和时间一致性。
Jul, 2018
本文提出了一种基于学习的方法,通过与另一个人的互动来估计身穿相机人的三维身体姿态,演示了我们的想法在多个领域的相关应用和视频实现。
Apr, 2019
我们提出了一种全面的联合训练框架,该框架在单目相机设置中明确建模多个动态对象、自我运动和深度而不需要监督,并且具有高效的深度和运动估算,并通过实验证明了其优于现有深度和运动估算方法。
Dec, 2019
本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响,并通过自我监督学习开发 Epic Sounding Object 数据集评估模型,证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能,并可以推广到不同的音视觉场景。
Mar, 2023