为自我中心视频估计更多的相机姿态对于 VQ3D 至关重要

ECCVNov, 2022

为自我中心视频估计更多的相机姿态对于 VQ3D 至关重要

Estimating more camera poses for ego-centric videos is essential for VQ3D

PDF

Jinjie Mai, Chen Zhao, Abdullah Hamdi, Silvio Giancola, Bernard Ghanem

TL;DR通过设计新的 pipeline 并重新优化现有的 VQ3D 框架，我们在 VQ3D 排行榜中取得了 25.8% 的最佳成绩，比基线 8.7% 提高了两倍。

Abstract

visual queries 3d localization (VQ3D) is a task in the ego4d episodic memory Benchmark. Given an →

visual queries 3d localization ego4d episodic memory egocentric video camera pose estimation

发现论文，激发创造

自我中心视觉查询 2D 定位中负面帧至关重要

该研究在 Ego4D dataset 基础上提出了针对 2D 视觉图像中的目标检测与跟踪问题的效率更高、效果更好的 baseline 解决方案，并在公共排行榜上表现出色。

Aug, 2022

EgoCOL：针对开放世界 3D 物体定位的自我中心相机位姿估计 @Ego4D 挑战赛 2023

EgoCOL 是一种用于开放世界三维物体定位的自我中心相机姿态估计方法，可以在 3D 渲染中高召回和精度地估计自我中心帧的相机姿态，比 Ego4D 基线更准确地估计相机姿态。

Jun, 2023

从主观立体视频中感知 3D 人体姿势

通过使用新的基于 transformer 模型的框架，结合场景信息和长时空上下文，利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态，并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。

Dec, 2023

关于部件、姿势和遮挡的 3D 感知视觉问答

通过引入 3D 感知的视觉问答（3D-aware VQA）任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA，本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题，实验证明 PO3D-VQA 模型在 3D 感知的视觉问答上取得了显著进展，但与 2D 视觉问答基准相比仍存在明显的性能差距，显示出 3D 感知的视觉问答依然是一个重要的开放研究领域。

Oct, 2023

自我姿态：来自头戴式摄像头的 3D 自我姿态估计

借助底部 VR 设备上安装的鱼眼相机捕捉的单目图像，使用编码器 - 解码器架构和新型多分支解码器，实现了针对自我中心 3D 人体姿势估计的解决方案，并提出了一种大规模的照片逼真的合成数据集 xR-EgoPose。这项工作在合成和实际数据集上与现有算法相比，准确率有大幅提高。

Nov, 2020

从主体视角视频中估算 3D 身体姿态：看到看不见的姿态

通过利用环境的动态运动和静态构造特征，以及能够推断身体姿态序列的新型最小化能量模型，我们提出了一种高效的基于学习的方法来推断佩戴 egocentric 相机的人体姿态的 3D 关节位置，进一步改进了基于深度学习的图像直接姿态回归等可能的替代方案。

Mar, 2016

自我中心视频中的单阶段视觉查询定位

提出了一种用于长格式自我中心视频上识别和定位特定对象的单阶段 VQL 框架，该框架比之前的方法精度提高了 20％，推断速度提高了 10 倍。

Jun, 2023

Ego3DPose：从双目视角中捕获 3D 线索

Ego3DPose 是一种高精度的双眼自我中心三维姿态重建系统，通过使用双眼自我中心布置实现了更实用和有用的各种应用。通过引入常被忽视的立体对应和透视，解决了目前方法在姿态估计精度上的不足，并提出了两种新的方法来应对挑战：一是设计了双路径网络架构，独立地估计每个连接的姿态，减轻了对全身信息的依赖；二是利用了肢体的自我中心视图，提出了一种新颖的透视感知表示方法，使网络可以估计肢体的三维方向。综合评估表明，Ego3DPose 在 UnrealEgo 数据集中通过减少姿态估计误差（即 MPJPE）达到 23.1% 的降低，我们得到的定性结果突出显示了我们的方法在各种情景和挑战中的优越性。

Sep, 2023

通过自我头部姿态估计进行自我身体姿态估计

该研究介绍了一种新方法，利用头部运动作为中间表示，将三维人体运动的预测分解为两个阶段，并使用条件扩散生成多个可能的全身动作，消除了需要训练配对数据集的需求，可以分别利用大规模的追踪数据集和运动捕捉数据集。

Dec, 2022

基于 3D 地图的自我中心活动识别及定位

提出了一种基于深度概率模型的方法，结合视角与环境信息，实现对运动轨迹和动作识别的 3D 场景理解与定位

May, 2021