H+O：一体化自我为中心的三维手部 - 物体姿态和交互识别

CVPRApr, 2019

H+O：一体化自我为中心的三维手部 - 物体姿态和交互识别

H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions

Bugra Tekin, Federica Bogo, Marc Pollefeys

TL;DR在该研究中，我们提出了一个统一框架，用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互，以及识别物体和动作类别，整个模型可针对序列帧的输入进行优化。

Abstract

We present a unified framework for understanding 3d hand and object interactions in raw image sequences from egocentric rgb cameras. Given a single RGB image, our model jointly estimates the →

3d hand object interactions rgb cameras neural network temporal domain

发现论文，激发创造

H2O: 第一人称交互识别中的双手物体操作

该研究提出了一个用于视角内交互识别的综合框架，利用无标记的三维手部操作物体注释，并提出一种用于创建统一数据集的方法，该数据集支持对双手和物体操作姿态的预测，并展现出在该领域的一系列前所未有的细节实现。

Apr, 2021

HOnnotate：手部和物体姿态三维注释方法

提出了一种用于注释手操作对象图像的 3D 姿态方法，以及使用该方法创建的数据集并开发了一种基于 RGB 图像的手姿态预测方法。

Jul, 2019

基于交互时间的半监督 3D 手物姿态估计

使用半监督学习的统一框架，通过显式的上下文推理和变换器之间的手和物体表示，估计来自单个图像的 3D 手和物体姿势，并利用大规模手 - 对象视频中的时空一致性生成伪标签作为约束条件去超越单个图像中有限的 3D 注释。

Jun, 2021

HOLD：从视频中无类别限制地重建互动的手部和物体的 3D 模型

通过使用单目交互视频，我们提出了 HOLD，它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法，通过使用一个组合的隐式模型，能够从 2D 图像中复原出解缠细分的 3D 手和物体，并进一步结合手物体约束来改善复原质量，在实验室和入迷环境中优于全监督基线方法。

Nov, 2023

自我中心手与物体的姿态估计中的基准和挑战

通过分析 3D 手 - 物体重建任务，我们展示了针对以自我为中心相机的畸变、采用高容量转换器来学习复杂的手 - 物体交互以及融合来自不同视角的预测等方法的有效性，并揭示了最新方法难以解决的快速手部运动、窄视角下的物体重建以及两只手和物体之间的近距离接触等具有挑战性的场景。我们的工作将丰富该领域的知识基础，并促进未来关于以自我为中心手 - 物体交互的研究。

Mar, 2024

我的视角，我的双手：准确的自视角二维手势姿态和动作识别

通过探索 2D 手势姿态评估用于自我中心动作识别的领域，我们提出了两种新方法：EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角，捕捉手部与物体之间的交互。同时，我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估，我们的架构具有更快的推断时间，并且分别达到了 91.32% 和 94.43% 的精度，超越了包括基于 3D 的方法在内的最先进的技术。

Apr, 2024

关于利用三维手势姿势进行动作识别的实用性研究

手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模，该方法在处理效率和准确率方面具有显著优势，并在自我中心行为识别方面取得了最新的最好性能。

Mar, 2024

针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计，分别实现短期的手势估计和长期的行为识别，取得了较好的结果。

Sep, 2022

基于 RGB-D 视频和 3D 手势姿态注释的第一人称手部动作基准测试

本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法，并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明，在进行动作识别时，与其他数据形式相比，手部姿态作为一种线索具有明显的优势。

Apr, 2017

自我中心 RGB-D 图像中的 3D 手势姿态检测

本文提出一种基于深度传感器的、具有先验的手势识别系统，使用包含自我场景的光辉合成模型来生成训练数据，并在真实环境下进行测试。结果表明，该方法在单目 RGB-D 图像中的手部检测和姿态估计方面均具有最先进的性能。

Nov, 2014