AssemblyHands: 通过 3D 手部姿态估算实现自我中心活动理解
本研究报告介绍了我们在 Egocentric 3D Hand Pose Estimation 挑战赛上的工作。采用 AssemblyHands,我们使用基于 ViT 的骨干网络和简单回归器进行 3D 关键点预测,提供了强大的模型基线。我们提出了一种非模型方法,在后处理阶段合并多视图结果,以解决手 - 物体遮挡和自遮挡引起的性能下降问题。此外,我们利用测试时间增强和模型集成进一步改进了方法。我们还发现公共数据集和合理的预处理是有益的。我们的方法在测试数据集上实现了 12.21mm 的 MPJPE,并在 Egocentric 3D Hand Pose Estimation 挑战赛中获得第一名。
Oct, 2023
通过分析 3D 手 - 物体重建任务,我们展示了针对以自我为中心相机的畸变、采用高容量转换器来学习复杂的手 - 物体交互以及融合来自不同视角的预测等方法的有效性,并揭示了最新方法难以解决的快速手部运动、窄视角下的物体重建以及两只手和物体之间的近距离接触等具有挑战性的场景。我们的工作将丰富该领域的知识基础,并促进未来关于以自我为中心手 - 物体交互的研究。
Mar, 2024
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估,我们的架构具有更快的推断时间,并且分别达到了 91.32% 和 94.43% 的精度,超越了包括基于 3D 的方法在内的最先进的技术。
Apr, 2024
WildHands 是一种用于在野外的视角图像中进行 3D 手势估计的方法,通过使用野外数据的辅助监督以及在实验室数据集中提供的 3D 监督,以及关于相机视野中手势位置的空间线索,能够在 ARCTIC 排行榜上实现最佳 3D 手势姿态并在 EPIC-HandKps 数据集上超越 FrankMocap 方法达到 45.3%的 2D 手势姿态优势。
Dec, 2023
本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性,并使用最先进的基于 Transformer 的方法分类序列,并取得了 94% 的验证结果,这突出了二维手部和物体姿态信息在动作识别任务中的潜力,并为基于 3D 的方法提供了有前途的替代方案。
Jun, 2023
本文提出一种基于深度传感器的、具有先验的手势识别系统,使用包含自我场景的光辉合成模型来生成训练数据,并在真实环境下进行测试。结果表明,该方法在单目 RGB-D 图像中的手部检测和姿态估计方面均具有最先进的性能。
Nov, 2014
HOT3D 是一个公开可用的三维视角下手部和物体跟踪的数据集,包含大量的多视角 RGB / 单色图像流以及 19 个参与者与 33 个不同的刚体物体的交互动作,提供了多模态信号和全面的真实标注,旨在加速关于视角自身手部与物体交互的研究。
Jun, 2024
本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法,并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明,在进行动作识别时,与其他数据形式相比,手部姿态作为一种线索具有明显的优势。
Apr, 2017
介绍了一种新的捕捉方法和跟踪系统,自动获取 21 个关节点的手部姿势数据,并通过新数据集和卷积神经网络对自我视角手势估计和交叉基准性能进行显著改进。
Apr, 2017
EgoBody 是一个新的大规模数据集,用于通过自我主观视角获取人类姿态、形状和运动的估计,数据集覆盖丰富的互动场景,估计社交伙伴的 3D 全身姿态和形状。
Dec, 2021