H2O: 第一人称交互识别中的双手物体操作
在该研究中,我们提出了一个统一框架,用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互,以及识别物体和动作类别,整个模型可针对序列帧的输入进行优化。
Apr, 2019
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估,我们的架构具有更快的推断时间,并且分别达到了 91.32% 和 94.43% 的精度,超越了包括基于 3D 的方法在内的最先进的技术。
Apr, 2024
本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法,并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明,在进行动作识别时,与其他数据形式相比,手部姿态作为一种线索具有明显的优势。
Apr, 2017
提出了首个从单目事件摄像机中跟踪两只快速移动和互动的手的三维跟踪框架,通过新颖的半监督特征注意机制解决左右手歧义并整合相交损失来修复手的碰撞,推出了新的大规模数据集 Ev2Hands-S 和真实事件流与真实三维标注的基准数据集 Ev2Hands-R,并在强光条件下对真实数据具有更高的三维重建精度。
Dec, 2023
本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性,并使用最先进的基于 Transformer 的方法分类序列,并取得了 94% 的验证结果,这突出了二维手部和物体姿态信息在动作识别任务中的潜力,并为基于 3D 的方法提供了有前途的替代方案。
Jun, 2023
通过使用单目交互视频,我们提出了 HOLD,它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法,通过使用一个组合的隐式模型,能够从 2D 图像中复原出解缠细分的 3D 手和物体,并进一步结合手物体约束来改善复原质量,在实验室和入迷环境中优于全监督基线方法。
Nov, 2023
该论文提出了一种使用单个 RGB 相机捕捉人手骨骼姿势和三维表面几何形状的实时方法,并考虑到了人手间的近距离交互情况,该方法通过多任务 CNN 回归多种信息,包括分割、对 3D 手模型的密集匹配、2D 关键点位置,以及新提出的手内相对深度和手间距离图。该方法已在 RGB 两只手追踪和三维重建方面实验验证,并且在量化和定性上优于现有的非针对两只手交互设计的基于 RGB 的方法,甚至与基于深度的实时方法相媲美。
Jun, 2021
本研究旨在探讨如何在自然环境中重建手 - 物互动。为此,我们提出了一个基于优化的过程,该过程不需要直接的 3D 监督,并利用所有可用的相关数据来提供 3D 重建的约束条件。我们的方法在 EPIC Kitchens 和 100 Days of Hands 数据集上跨越一系列对象类别产生了引人注目的重建效果,并在实验室的环境中与现有方法进行了比较。
Dec, 2020
本文旨在从单目视频中获取手部和操纵对象的三维重构,提出了一种学习免费的拟合方法以应用于无法获取训练数据且具有不同难度等级的数据集,并量化评估了该方法。
Aug, 2021