针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

CVPRSep, 2022

针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos

Yilin Wen, Hao Pan, Lei Yang, Jia Pan, Taku Komura...

TL;DR通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计，分别实现短期的手势估计和长期的行为识别，取得了较好的结果。

Abstract

Understanding dynamic hand motions and actions from egocentric rgb videos is a fundamental yet challenging task due to self-occlusion and ambiguity. To address occlusion and ambiguity, we develop a →

hand motions rgb videos egocentric view transformer-based framework action recognition

发现论文，激发创造

生成层次时间变换器用于手势动作识别和运动预测

提出一种新颖的框架，同时处理手势识别和 3D 未来手势预测，借助生成式 Transformer VAE 架构来联合捕捉两个方面，从而实现通过利用时间戳间观察到的短期手势和长期动作一致性，促进现实动作预测，确保手势姿势和动作的语义依赖和不同时间粒度的忠实表示。

Nov, 2023

关于利用三维手势姿势进行动作识别的实用性研究

手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模，该方法在处理效率和准确率方面具有显著优势，并在自我中心行为识别方面取得了最新的最好性能。

Mar, 2024

视频中三维手姿和网格估计的时空感知自监督学习

本研究提出了一种新的训练 3D 手势估计模型的框架，使用自监督学习模型（TASSN）从仅具有 2D 信息的视频中学习，通过强制时间一致性约束，TASSN 可以学习从视频中推断 3D 手势和网格的技能，并且实验证明了该模型的 3D 估计精度与目前最先进的基于 3D 注释的模型在同等级别上，强调了时间一致性在限制 3D 预测模型方面的优点。

Dec, 2020

H+O：一体化自我为中心的三维手部 - 物体姿态和交互识别

在该研究中，我们提出了一个统一框架，用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互，以及识别物体和动作类别，整个模型可针对序列帧的输入进行优化。

Apr, 2019

我的视角，我的双手：准确的自视角二维手势姿态和动作识别

通过探索 2D 手势姿态评估用于自我中心动作识别的领域，我们提出了两种新方法：EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角，捕捉手部与物体之间的交互。同时，我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估，我们的架构具有更快的推断时间，并且分别达到了 91.32% 和 94.43% 的精度，超越了包括基于 3D 的方法在内的最先进的技术。

Apr, 2024

基于 RGB-D 视频和 3D 手势姿态注释的第一人称手部动作基准测试

本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法，并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明，在进行动作识别时，与其他数据形式相比，手部姿态作为一种线索具有明显的优势。

Apr, 2017

空间时间并行变压器用于手臂动态估计

该研究提出了一种基于 Spatial-Temporal Parallel Arm-Hand Motion Transformer (PAHMT) 的方法，来预测单目视频中的手臂和手的动态，并在不同的挑战性场景下表现出鲁棒性。

Mar, 2022

使用 2D 物体和手部姿态的自我视角人体动作识别

本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性，并使用最先进的基于 Transformer 的方法分类序列，并取得了 94% 的验证结果，这突出了二维手部和物体姿态信息在动作识别任务中的潜力，并为基于 3D 的方法提供了有前途的替代方案。

Jun, 2023

针对人类动作识别的姿态条件的时空关注

通过利用多模态视频数据，并提出使用两种方法来识别人类行为，包括使用卷积模型处理姿势流，由可调节关注机制控制图片流，最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取，能够在多数据集上大幅度的提高人类行为识别的效果。

Mar, 2017

实时 3D 人体姿态估计和动作识别的多任务深度学习

本研究提出了一种多任务学习框架，能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术，该框架能有效地处理静态图像和视频剪辑，实现了 100 帧以上的速度，并在四个数据集上显著提高了预测能力。

Dec, 2019