针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器
提出一种新颖的框架,同时处理手势识别和 3D 未来手势预测,借助生成式 Transformer VAE 架构来联合捕捉两个方面,从而实现通过利用时间戳间观察到的短期手势和长期动作一致性,促进现实动作预测,确保手势姿势和动作的语义依赖和不同时间粒度的忠实表示。
Nov, 2023
手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模,该方法在处理效率和准确率方面具有显著优势,并在自我中心行为识别方面取得了最新的最好性能。
Mar, 2024
本研究提出了一种新的训练 3D 手势估计模型的框架,使用自监督学习模型(TASSN)从仅具有 2D 信息的视频中学习,通过强制时间一致性约束,TASSN 可以学习从视频中推断 3D 手势和网格的技能,并且实验证明了该模型的 3D 估计精度与目前最先进的基于 3D 注释的模型在同等级别上,强调了时间一致性在限制 3D 预测模型方面的优点。
Dec, 2020
在该研究中,我们提出了一个统一框架,用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互,以及识别物体和动作类别,整个模型可针对序列帧的输入进行优化。
Apr, 2019
通过探索 2D 手势姿态评估用于自我中心动作识别的领域,我们提出了两种新方法:EffHandNet 用于单手姿态估计和 EffHandEgoNet 用于自我视角,捕捉手部与物体之间的交互。同时,我们提出了一个从 2D 手部和物体姿态的坚固的动作识别架构。通过在 H2O 和 FPHA 数据集上的评估,我们的架构具有更快的推断时间,并且分别达到了 91.32% 和 94.43% 的精度,超越了包括基于 3D 的方法在内的最先进的技术。
Apr, 2024
本文提出了一种基于 3D 手部姿势的第一人称动态手部动作识别方法,并通过收集大量 RGB-D 视频序列对其进行了实验评估。研究结果表明,在进行动作识别时,与其他数据形式相比,手部姿态作为一种线索具有明显的优势。
Apr, 2017
该研究提出了一种基于 Spatial-Temporal Parallel Arm-Hand Motion Transformer (PAHMT) 的方法,来预测单目视频中的手臂和手的动态,并在不同的挑战性场景下表现出鲁棒性。
Mar, 2022
本研究探索了使用二维手部姿态和物体姿态信息实现以自我为中心的动作识别的可行性,并使用最先进的基于 Transformer 的方法分类序列,并取得了 94% 的验证结果,这突出了二维手部和物体姿态信息在动作识别任务中的潜力,并为基于 3D 的方法提供了有前途的替代方案。
Jun, 2023
通过利用多模态视频数据,并提出使用两种方法来识别人类行为,包括使用卷积模型处理姿势流,由可调节关注机制控制图片流,最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取,能够在多数据集上大幅度的提高人类行为识别的效果。
Mar, 2017
本研究提出了一种多任务学习框架,能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术,该框架能有效地处理静态图像和视频剪辑,实现了 100 帧以上的速度,并在四个数据集上显著提高了预测能力。
Dec, 2019