从自我中心视频中的三维场景中实例追踪

Dec, 2023

从自我中心视频中的三维场景中实例追踪

Instance Tracking in 3D Scenes from Egocentric Videos

Yunhan Zhao, Haoyu Ma, Shu Kong, Charless Fowlkes

TL;DR借助自我中心传感器，本研究提出了一种新方法来解决三维视角下的物体实例追踪问题，并证明相比二维追踪方法，基于相机姿态和三维坐标的方法显著提高了追踪性能。

Abstract

egocentric sensors such as AR/VR devices capture human-object interactions and offer the potential to provide task-assistance by recalling 3D locations of objects of interest in the surrounding environment. This capability requires →

egocentric sensors instance tracking 3d coordinates pre-enrollment camera pose

发现论文，激发创造

从主观立体视频中感知 3D 人体姿势

通过使用新的基于 transformer 模型的框架，结合场景信息和长时空上下文，利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态，并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。

Dec, 2023

基于 3D 地图的自我中心活动识别及定位

提出了一种基于深度概率模型的方法，结合视角与环境信息，实现对运动轨迹和动作识别的 3D 场景理解与定位

May, 2021

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

通过三维场景支撑从自我中心视频中捕获四维人体

我们介绍了一种重建第二人称 3D 人体网格时间序列的新任务，并通过优化方法的应用解决了视角独特的自我中心视频人体捕捉的技术难题，从而比之前的单眼视频人体动作捕捉方法更准确地估计人体姿态和形状。

Nov, 2020

EgoHumans: 一种以自我为中心的三维多人基准测试

提出了 EgoHumans 数据集，用于改进以往单人或仅局限于室内的 egocentric human 3D 姿势估计和跟踪算法，利用可穿戴相机配备的眼镜的多视角构建全面的 egocentric multi-human 数据集，并采用多流变压器体系结构和显式 3D 空间推理来估计和跟踪人体姿态。

May, 2023

自我姿态：来自头戴式摄像头的 3D 自我姿态估计

借助底部 VR 设备上安装的鱼眼相机捕捉的单目图像，使用编码器 - 解码器架构和新型多分支解码器，实现了针对自我中心 3D 人体姿势估计的解决方案，并提出了一种大规模的照片逼真的合成数据集 xR-EgoPose。这项工作在合成和实际数据集上与现有算法相比，准确率有大幅提高。

Nov, 2020

用立体视觉进行语义化三维物体和自我运动跟踪，用于自动驾驶

本文提出了一种基于立体视觉的方法，用于在动态自动驾驶情景下跟踪摄像机姿态和三维语义对象，该方法使用易于标注的二维检测和离散视点分类结合轻量级语义推理方法获取粗略的三维物体测量，并基于当前的物体感知相机姿态跟踪实现物体位置的估计与 3D 建模以获得精确度和时间一致性。

Jul, 2018

You2Me: 通过第一和第二人称交互推断自我中心视频中的身体姿态

本文提出了一种基于学习的方法，通过与另一个人的互动来估计身穿相机人的三维身体姿态，演示了我们的想法在多个领域的相关应用和视频实现。

Apr, 2019

单目视频的逐帧深度与运动学习

我们提出了一种全面的联合训练框架，该框架在单目相机设置中明确建模多个动态对象、自我运动和深度而不需要监督，并且具有高效的深度和运动估算，并通过实验证明了其优于现有深度和运动估算方法。

Dec, 2019

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023