HumMUSS: 使用状态空间模型进行人体动作理解
本文提出一种新颖的基于 Transformer 的架构,用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入,通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。
Apr, 2020
通过引入三种新方法,我们将全身运动形式化为动态系统的状态空间模型,利用深度学习和统计算法估计参数。这些表示遵循手势操作模型(GOM)的结构,描述了通过时空假设的运动。这些方法用于人类运动的精确生成和专业运动的身体灵活性分析。
Apr, 2023
本研究通过复制现有的最先进(SOTA)时空转换器模型,以尽可能符合计算限制,并批判性评估现有模型架构的优势和改进机会,以解决实时推理速度挑战,并在空间 - 时间 (ST) 关注层中引入专家混合 (MoE) 块来提高模型容量和降低推理成本。
May, 2024
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
Jan, 2024
本文提出一种利用 Spatial-Temporal Mesh Transformer(STMT) 直接对网格序列进行建模的方法,通过使用层次 Transformer 结构和自监督任务来实现骨架表示和点云表示无法达到的以空间 - 时间域的非局部关系为基础的人类动作识别,实验结果表明该方法在 MoCap 基准测试上表现卓越。
Mar, 2023
本文提出了一种带有特殊门控机制的多头状态空间(MH-SSM)架构,它可以作为多头注意力在转换器编码器中的替代品,在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果,在 LibriSpeech 语音识别数据集上提高了性能。同时,我们将 MH-SSMs 层与转换器块相结合,成为 Stateformer,且无需使用外部语言模型,在 LibriSpeech 任务中实现了最先进的性能,其开发和测试集上的字错率分别为 1.76%/4.37%和 1.91%/4.36%。
May, 2023
该研究提出了一种基于转移子空间学习的无监督模型,结合了轨迹数据的几何结构信息和较大的自由度,通过 ADMM 算法实现学习辅助数据表示、非负字典和编码矩阵的优化,实验结果表明该方法在人体运动分割方面的聚类性能显著优于当前最先进的半监督转移学习方法。
Jul, 2021
在这篇论文中,我们首次全面回顾了 State Space Model(SSM)作为自注意力基础的 Transformer 模型的特性和优势,并提供了实验比较和分析。此外,我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用,并提出了未来研究的方向,希望能推动 SSM 在理论模型和应用方面的发展。
Apr, 2024
本文介绍了一种通过 4DHumans 方法从单眼视频中追踪和重建人体动作的技术,通过 transformerized 版本的 HMR 2.0 网络实现人体重建,使用 3D 重建作为输入在 3D 跟踪系统中进行多人追踪并通过深度学习算法实现姿态和动作的识别。
May, 2023
利用可穿戴设备进行动作重建已成为一种经济且可行的技术,在稀疏的惯性测量单元(IMUs)数据上建立人体姿势模型存在着困扰,本文通过多传感器的空间重要性和文本描述的监督引入不确定性来获取每个 IMU 的加权特征,并设计了一种层次时间变换器(HTT)和对比学习来实现传感器数据与文本语义的精确时间和特征对齐。实验证明我们的方法在多个指标上相比现有方法有显著改进,尤其是在文本监督下,我们的方法不仅能区分诸如坐下和站起之类的模糊动作,还能产生更精确和自然的动作。
Dec, 2023