基于 4D 骨骼增强的上下文感知序列对齐

CVPRApr, 2022

基于 4D 骨骼增强的上下文感知序列对齐

Context-Aware Sequence Alignment using 4D Skeletal Augmentation

Taein Kwon, Bugra Tekin, Siyu Tang, Marc Pollefeys

TL;DR本文提出了一种新的上下文感知自监督学习架构（CASA）, 该架构基于现成的人体姿态估计器，以解决视频中人类动作时间对齐的问题。CASA 通过引入自注意力和交叉 - 注意机制，结合人类活动的时空上下文，有效地解决了时间间断性的问题，并通过 4D 姿势表示的新颖增强技术来增强其自监督学习方案，实验结果表明，在三个公共数据集上，CASA 方法显著提高了相位进度和 Kendall Tau 得分比之前的最先进方法。

Abstract

Temporal alignment of fine-grained human actions in videos is important for numerous applications in computer vision, robotics, and mixed reality. State-of-the-art methods directly learn image-based embedding space by leveraging powerful deep convolutional neural networks. While being

human actions video alignment deep learning self-supervised learning pose estimation

发现论文，激发创造

时间对齐 2D 骨架序列学习

本论文提出了一种自监督学习的视频对齐框架，利用 2D 骨架热图作为输入，通过自身在空间和时间域内的自注意力机制来提取有效的时空和上下文特征，同时通过基于 2D 骨架的热图增强技术进行自监督学习，取得了比 CASA 更高的准确度和对缺失和噪声关键点更好的稳健性，在不同的细粒度人体活动理解任务中表现优于先前的方法，如阶段分类、阶段进展、视频对齐和细粒度帧检索。

May, 2023

增强时空上下文：单目视频中具有时态一致性的稳健 3D 人体动作恢复

提出了一种从单眼视频中恢复时间一致的 3D 人体姿势、形状和动作的方法，通过使用具有身体感知特征表示和独立的逐帧姿势和相机初始化，结合自相似性和自注意力等技术进行时空特征聚合，该方法提供了增强的时空上下文，可在各种复杂场景下得到更准确的姿势估计和形状重建。

Nov, 2023

基于骨架的全局上下文感知注意力 LSTM 网络的人类动作识别

本研究设计了一种全局上下文感知注意 LSTM 网络 (GCA-LSTM) 用于基于骨骼的动作识别，实现了对每个骨架序列的每帧中信息的有选择性的聚焦，具有递归注意机制的 GCA-LSTM 网络的性能优于其他模型，并在评估使用的五个骨骼基础动作识别数据集上实现了最先进的性能。

Jul, 2017

针对人类动作识别的姿态条件的时空关注

通过利用多模态视频数据，并提出使用两种方法来识别人类行为，包括使用卷积模型处理姿势流，由可调节关注机制控制图片流，最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取，能够在多数据集上大幅度的提高人类行为识别的效果。

Mar, 2017

一种基于时空注意力机制的人体动作识别端到端模型（来自骨架数据）

本研究提出了一种基于 RNNs 和 LSTM 的空间和时间关注模型，用于从骨架数据中识别人类动作，实验结果表明该模型在 SBU 和 NTU 数据集上均取得了很好的效果。

Nov, 2016

单目视频中全三维网格人体姿态的时间连续恢复

该研究论文提出了一种基于深度学习和递归神经网络的方法，采用含有 3D 注释的合成单眼视频来恢复完整的 3D 人体姿势，并在定量和定性分析中证明了该方法的有效性。

Jun, 2019

骨骼少样本动作识别的时空视角传输规划

提出了一种基于 JEANIE 的 3D 骨骼动作识别少样本学习方法，包括动态时间扭曲、简单光谱图卷积、线性图神经网络骨干和基于相似性的损耗函数，达到了在 NTU-60，NTU-120，运动学 - 骨骼和 UWA3D Multiview Activity II 数据集上的最先进的结果。

Oct, 2022

基于骨骼的动作识别的解耦空时注意力网络

提出一种新型的解耦空 — 时间注意力网络 (DSTA-Net) 用于基于骨架的动作识别，该网络只涉及注意块，无需知道关节位置或关节间的相互连接，通过使用解耦技术和空 — 时间注意力，能够更好地挖掘骨架数据的时间和空间特征，并在四个具有挑战性的数据集上实现最先进的性能表现。

Jul, 2020

视频中三维手姿和网格估计的时空感知自监督学习

本研究提出了一种新的训练 3D 手势估计模型的框架，使用自监督学习模型（TASSN）从仅具有 2D 信息的视频中学习，通过强制时间一致性约束，TASSN 可以学习从视频中推断 3D 手势和网格的技能，并且实验证明了该模型的 3D 估计精度与目前最先进的基于 3D 注释的模型在同等级别上，强调了时间一致性在限制 3D 预测模型方面的优点。

Dec, 2020

基于自注意力网络的基于骨骼的人体动作识别

提出三个 Self-Attention 网络的变体来提取高层语义，其中将 Temporal Segment Network 应用于变体以获得更好的性能，通过广泛的实验评估，探索了不同配置和表现更好的方法。

Dec, 2019