为自我中心视频估计更多的相机姿态对于 VQ3D 至关重要
该研究在 Ego4D dataset 基础上提出了针对 2D 视觉图像中的目标检测与跟踪问题的效率更高、效果更好的 baseline 解决方案,并在公共排行榜上表现出色。
Aug, 2022
EgoCOL 是一种用于开放世界三维物体定位的自我中心相机姿态估计方法,可以在 3D 渲染中高召回和精度地估计自我中心帧的相机姿态,比 Ego4D 基线更准确地估计相机姿态。
Jun, 2023
通过使用新的基于 transformer 模型的框架,结合场景信息和长时空上下文,利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态,并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。
Dec, 2023
通过引入 3D 感知的视觉问答(3D-aware VQA)任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明 PO3D-VQA 模型在 3D 感知的视觉问答上取得了显著进展,但与 2D 视觉问答基准相比仍存在明显的性能差距,显示出 3D 感知的视觉问答依然是一个重要的开放研究领域。
Oct, 2023
借助底部 VR 设备上安装的鱼眼相机捕捉的单目图像,使用编码器 - 解码器架构和新型多分支解码器,实现了针对自我中心 3D 人体姿势估计的解决方案,并提出了一种大规模的照片逼真的合成数据集 xR-EgoPose。这项工作在合成和实际数据集上与现有算法相比,准确率有大幅提高。
Nov, 2020
通过利用环境的动态运动和静态构造特征,以及能够推断身体姿态序列的新型最小化能量模型,我们提出了一种高效的基于学习的方法来推断佩戴 egocentric 相机的人体姿态的 3D 关节位置,进一步改进了基于深度学习的图像直接姿态回归等可能的替代方案。
Mar, 2016
Ego3DPose 是一种高精度的双眼自我中心三维姿态重建系统,通过使用双眼自我中心布置实现了更实用和有用的各种应用。通过引入常被忽视的立体对应和透视,解决了目前方法在姿态估计精度上的不足,并提出了两种新的方法来应对挑战:一是设计了双路径网络架构,独立地估计每个连接的姿态,减轻了对全身信息的依赖;二是利用了肢体的自我中心视图,提出了一种新颖的透视感知表示方法,使网络可以估计肢体的三维方向。综合评估表明,Ego3DPose 在 UnrealEgo 数据集中通过减少姿态估计误差(即 MPJPE)达到 23.1% 的降低,我们得到的定性结果突出显示了我们的方法在各种情景和挑战中的优越性。
Sep, 2023
该研究介绍了一种新方法,利用头部运动作为中间表示,将三维人体运动的预测分解为两个阶段,并使用条件扩散生成多个可能的全身动作,消除了需要训练配对数据集的需求,可以分别利用大规模的追踪数据集和运动捕捉数据集。
Dec, 2022