基于运动捕捉的动作识别的时空网格变换器（STMT）

CVPRMar, 2023

基于运动捕捉的动作识别的时空网格变换器（STMT）

STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition

Xiaoyu Zhu, Po-Yao Huang, Junwei Liang, Celso M. de Melo, Alexander Hauptmann

TL;DR本文提出一种利用 Spatial-Temporal Mesh Transformer（STMT）直接对网格序列进行建模的方法，通过使用层次 Transformer 结构和自监督任务来实现骨架表示和点云表示无法达到的以空间 - 时间域的非局部关系为基础的人类动作识别，实验结果表明该方法在 MoCap 基准测试上表现卓越。

Abstract

We study the problem of human action recognition using motion capture (MoCap) sequences. Unlike existing techniques that take multiple manual steps to derive standardized skeleton representations as model input,

human action recognition motion capture spatial-temporal mesh transformer self-supervised tasks non-local relationships

发现论文，激发创造

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020

基于空间和时间变换器网络的基于骨架的动作识别

本文提出了一种基于 Spatial-Temporal Transformer 网络的骨骼姿态行为识别方法，使用自注意力机制成功提取了骨骼运动及其相关性的信息，与其他同类算法相比在多个大规模数据集上表现出更好的精度。

Aug, 2020

基于骨架的动作识别中的时空元组变换

提出了一种新的时空元组 Transformer（STTFormer）方法，该方法着重解决了现有的基于 Transformer 的方法不能捕获帧之间不同关节之间的相关性的问题，在两个大型数据集上的表现优于现有技术方法。

Jan, 2022

一种基于专家混合的三维人体动作预测方法

本研究通过复制现有的最先进（SOTA）时空转换器模型，以尽可能符合计算限制，并批判性评估现有模型架构的优势和改进机会，以解决实时推理速度挑战，并在空间 - 时间 (ST) 关注层中引入专家混合 (MoE) 块来提高模型容量和降低推理成本。

May, 2024

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

用于三维人体运动预测的时空转换器

本文提出一种新颖的基于 Transformer 的架构，用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入，通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。

Apr, 2020

基于螺旋自编码器和 Transformer 网络的 MoCap 3D 人体动作识别

文章提出了一种基于 Spiral 自编码器和 Transformer 网络的新型固定拓扑网格序列的人体动作识别方法 SpATr，该方法通过融合空间和时间的解耦、自编码器和 Transformer 网络等手段，达到了高效且准确识别三维人体动作的效果。经过实验验证，该方法不仅具有竞争力的识别率，而且具有高内存效率。

Jun, 2023

HumMUSS: 使用状态空间模型进行人体动作理解

基于状态空间模型，我们提出了一种新颖的无注意力空间时间模型，用于人体运动理解，兼具离线和实时应用的功能，并在各种动作理解任务中达到了变压器模型的性能水平。

Apr, 2024

STAR-Transformer：面向人类动作识别的时空交叉注意力变压器

提出一种名为 STAR-transformer 的模型，该模型可以有效地表示两个跨模态特征为可识别的矢量，并学习到一种高效的多功能特征表示方法。在动作识别领域中，STAR-transformer 的效果显著优于之前的最先进方法。

Oct, 2022

时空对齐网络用于动作识别

通过引入视点不变特征表示，研究提高现有动作识别架构；提出了一种轻量级通用的空间 - 时间对齐网络（STAN）用于学习动作识别的几何不变表示；实验证明 STAN 模型在广泛使用的数据集上能够在从头开始训练的模式下持续改进动作识别任务的最先进模型。

Aug, 2023