HumMUSS: 使用状态空间模型进行人体动作理解

CVPRApr, 2024

HumMUSS: 使用状态空间模型进行人体动作理解

HumMUSS: Human Motion Understanding using State Space Models

Arnab Kumar Mondal, Stefano Alletto, Denis Tome

TL;DR基于状态空间模型，我们提出了一种新颖的无注意力空间时间模型，用于人体运动理解，兼具离线和实时应用的功能，并在各种动作理解任务中达到了变压器模型的性能水平。

Abstract

Understanding human motion from video is essential for a range of applications, including pose estimation, mesh recovery and action recognition. While state-of-the-art methods predominantly rely on transformer-ba

human motion video transformer-based architectures state space models real-time applications

发现论文，激发创造

用于三维人体运动预测的时空转换器

本文提出一种新颖的基于 Transformer 的架构，用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入，通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。

Apr, 2020

深度状态空间建模：用于可解释的专业人体姿势表达、分析和生成

通过引入三种新方法，我们将全身运动形式化为动态系统的状态空间模型，利用深度学习和统计算法估计参数。这些表示遵循手势操作模型（GOM）的结构，描述了通过时空假设的运动。这些方法用于人类运动的精确生成和专业运动的身体灵活性分析。

Apr, 2023

一种基于专家混合的三维人体动作预测方法

本研究通过复制现有的最先进（SOTA）时空转换器模型，以尽可能符合计算限制，并批判性评估现有模型架构的优势和改进机会，以解决实时推理速度挑战，并在空间 - 时间 (ST) 关注层中引入专家混合 (MoE) 块来提高模型容量和降低推理成本。

May, 2024

多透视空时关系变换的精确 3D 人体姿势估计

我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架，利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性，实验结果表明我们的方法在 Human3.6M 数据集上表现出色。

Jan, 2024

基于运动捕捉的动作识别的时空网格变换器（STMT）

本文提出一种利用 Spatial-Temporal Mesh Transformer（STMT）直接对网格序列进行建模的方法，通过使用层次 Transformer 结构和自监督任务来实现骨架表示和点云表示无法达到的以空间 - 时间域的非局部关系为基础的人类动作识别，实验结果表明该方法在 MoCap 基准测试上表现卓越。

Mar, 2023

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

基于图约束的人体运动分割数据表示学习

该研究提出了一种基于转移子空间学习的无监督模型，结合了轨迹数据的几何结构信息和较大的自由度，通过 ADMM 算法实现学习辅助数据表示、非负字典和编码矩阵的优化，实验结果表明该方法在人体运动分割方面的聚类性能显著优于当前最先进的半监督转移学习方法。

Jul, 2021

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

在 4D 中重建和跟踪人类的 Transformers 技术

本文介绍了一种通过 4DHumans 方法从单眼视频中追踪和重建人体动作的技术，通过 transformerized 版本的 HMR 2.0 网络实现人体重建，使用 3D 重建作为输入在 3D 跟踪系统中进行多人追踪并通过深度学习算法实现姿态和动作的识别。

May, 2023

空间相关传感器问题：辅助文字语义的 3D 人体动作重建

利用可穿戴设备进行动作重建已成为一种经济且可行的技术，在稀疏的惯性测量单元（IMUs）数据上建立人体姿势模型存在着困扰，本文通过多传感器的空间重要性和文本描述的监督引入不确定性来获取每个 IMU 的加权特征，并设计了一种层次时间变换器（HTT）和对比学习来实现传感器数据与文本语义的精确时间和特征对齐。实验证明我们的方法在多个指标上相比现有方法有显著改进，尤其是在文本监督下，我们的方法不仅能区分诸如坐下和站起之类的模糊动作，还能产生更精确和自然的动作。

Dec, 2023