H+O:一体化自我为中心的三维手部 - 物体姿态和交互识别
该研究提出了一个用于视角内交互识别的综合框架,利用无标记的三维手部操作物体注释,并提出一种用于创建统一数据集的方法,该数据集支持对双手和物体操作姿态的预测,并展现出在该领域的一系列前所未有的细节实现。
Apr, 2021
使用半监督学习的统一框架,通过显式的上下文推理和变换器之间的手和物体表示,估计来自单个图像的 3D 手和物体姿势,并利用大规模手 - 对象视频中的时空一致性生成伪标签作为约束条件去超越单个图像中有限的 3D 注释。
Jun, 2021
通过使用单目交互视频,我们提出了 HOLD,它是第一个无需 3D 手物体注释就能从中复原出联合的手和物体的方法,通过使用一个组合的隐式模型,能够从 2D 图像中复原出解缠细分的 3D 手和物体,并进一步结合手物体约束来改善复原质量,在实验室和入迷环境中优于全监督基线方法。
Nov, 2023
通过分析 3D 手 - 物体重建任务,我们展示了针对以自我为中心相机的畸变、采用高容量转换器来学习复杂的手 - 物体交互以及融合来自不同视角的预测等方法的有效性,并揭示了最新方法难以解决的快速手部运动、窄视角下的物体重建以及两只手和物体之间的近距离接触等具有挑战性的场景。我们的工作将丰富该领域的知识基础,并促进未来关于以自我为中心手 - 物体交互的研究。
Mar, 2024
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估,我们的架构具有更快的推断时间,并且分别达到了 91.32% 和 94.43% 的精度,超越了包括基于 3D 的方法在内的最先进的技术。
Apr, 2024
手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模,该方法在处理效率和准确率方面具有显著优势,并在自我中心行为识别方面取得了最新的最好性能。
Mar, 2024
通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计,分别实现短期的手势估计和长期的行为识别,取得了较好的结果。
Sep, 2022
本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法,并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明,在进行动作识别时,与其他数据形式相比,手部姿态作为一种线索具有明显的优势。
Apr, 2017
本文提出一种基于深度传感器的、具有先验的手势识别系统,使用包含自我场景的光辉合成模型来生成训练数据,并在真实环境下进行测试。结果表明,该方法在单目 RGB-D 图像中的手部检测和姿态估计方面均具有最先进的性能。
Nov, 2014