H2O: 第一人称交互识别中的双手物体操作

ICCVApr, 2021

H2O: 第一人称交互识别中的双手物体操作

H2O: Two Hands Manipulating Objects for First Person Interaction Recognition

Taein Kwon, Bugra Tekin, Jan Stuhmer, Federica Bogo, Marc Pollefeys

TL;DR该研究提出了一个用于视角内交互识别的综合框架，利用无标记的三维手部操作物体注释，并提出一种用于创建统一数据集的方法，该数据集支持对双手和物体操作姿态的预测，并展现出在该领域的一系列前所未有的细节实现。

Abstract

We present a comprehensive framework for egocentric interaction recognition using markerless 3d annotations of two hands manipulating objects. To this end, we propose a method to create a →

egocentric interaction recognition markerless 3d annotations unified dataset hand-object pose estimation first-person actions

发现论文，激发创造

H+O：一体化自我为中心的三维手部 - 物体姿态和交互识别

在该研究中，我们提出了一个统一框架，用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互，以及识别物体和动作类别，整个模型可针对序列帧的输入进行优化。

Apr, 2019

HOnnotate：手部和物体姿态三维注释方法

提出了一种用于注释手操作对象图像的 3D 姿态方法，以及使用该方法创建的数据集并开发了一种基于 RGB 图像的手姿态预测方法。

Jul, 2019

我的视角，我的双手：准确的自视角二维手势姿态和动作识别

通过探索 2D 手势姿态评估用于自我中心动作识别的领域，我们提出了两种新方法：EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角，捕捉手部与物体之间的交互。同时，我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估，我们的架构具有更快的推断时间，并且分别达到了 91.32% 和 94.43% 的精度，超越了包括基于 3D 的方法在内的最先进的技术。

Apr, 2024

基于 RGB-D 视频和 3D 手势姿态注释的第一人称手部动作基准测试

本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法，并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明，在进行动作识别时，与其他数据形式相比，手部姿态作为一种线索具有明显的优势。

Apr, 2017

单目事件相机下两只交互手的 3D 姿态估计

提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架，通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞，推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R，并在强光条件下对真实数据具有更高的三维重建精度。

Dec, 2023

使用 2D 物体和手部姿态的自我视角人体动作识别

本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性，并使用最先进的基于 Transformer 的方法分类序列，并取得了 94% 的验证结果，这突出了二维手部和物体姿态信息在动作识别任务中的潜力，并为基于 3D 的方法提供了有前途的替代方案。

Jun, 2023

HOLD：从视频中无类别限制地重建互动的手部和物体的 3D 模型

通过使用单目交互视频，我们提出了 HOLD，它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法，通过使用一个组合的隐式模型，能够从 2D 图像中复原出解缠细分的 3D 手和物体，并进一步结合手物体约束来改善复原质量，在实验室和入迷环境中优于全监督基线方法。

Nov, 2023

RGB2Hands: 从单目 RGB 视频中实时跟踪三维手部交互

该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法，并考虑到了人手间的近距离交互情况，该方法通过多任务 CNN 回归多种信息，包括分割、对 3D 手模型的密集匹配、2D 关键点位置，以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证，并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法，甚至与基于深度的实时方法相媲美。

Jun, 2021

重建野外手 - 物互动

本研究旨在探讨如何在自然环境中重建手 - 物互动。为此，我们提出了一个基于优化的过程，该过程不需要直接的 3D 监督，并利用所有可用的相关数据来提供 3D 重建的约束条件。我们的方法在 EPIC Kitchens 和 100 Days of Hands 数据集上跨越一系列对象类别产生了引人注目的重建效果，并在实验室的环境中与现有方法进行了比较。

Dec, 2020

从 RGB 视频中实现无限制联合手部和物体重建

本文旨在从单目视频中获取手部和操纵对象的三维重构，提出了一种学习免费的拟合方法以应用于无法获取训练数据且具有不同难度等级的数据集，并量化评估了该方法。

Aug, 2021