文本控制的运动短蓰：基于文本指导的人体运动时序定位

Apr, 2024

文本控制的运动短蓰：基于文本指导的人体运动时序定位

Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion

Xinghan Wang, Zixi Kang, Yadong Mu

TL;DR文本注意动作集成与全局时间信息，在处理传感器数据时，通过 TM-Mamba 模型能够高效地将人类运动与时间对应起来并进行理解。

Abstract

human motion understanding is a fundamental task with diverse practical applications, facilitated by the availability of large-scale motion capture datasets. Recent studies focus on text-motion tasks, such as text-based motion generation, editing and question answering. In this study,

human motion understanding text-based human motion grounding tm-mamba temporal segments babel-grounding

发现论文，激发创造

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022

Motion Mamba: 高效和长序列动作生成与分层和双向选择性 SSM

提出了一种简单高效的运动生成模型，利用了状态空间模型进行建模，并通过分层时序 Mamba (HTM) 块和双向空间 Mamba (BSM) 块来处理时序和姿态信息，从而实现了高质量、长序列的运动生成和实时人体动作生成。

Mar, 2024

基于开放词汇的情景和文本背景下的基础人体运动生成（GHOST）

本文提出了一种方法，将开放词汇场景编码器与架构相结合，建立了文本和场景之间的强大连接；方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器，确保了一个共享的文本 - 场景特征空间，并通过引入两种新的正则化损失，用于回归目标对象的类别和尺寸，在条件运动生成时对场景编码器进行微调；通过在 HUMANISE 数据集上进行的评估和知觉研究，我们的方法相比先前最先进的基准模型，可以使目标对象距离指标减少高达 30%；此外，我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。

Apr, 2024

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

使用对比式 3D 人体动作合成进行文本到动作的检索

该论文提出了 TMR 方法，利用对比损失结构化跨模态潜在空间，提高文本到 3D 人体运动检索的性能，并在多个数据集上验证了其优越性能，同时也展示了其在时刻检索方面的潜力。

May, 2023

TEACH：针对 3D 人体的时间动作组合

利用 BABEL 动作文本集合，设计了一种基于 Transformer 的 TEACH 方法，能够根据自然语言描述生成符合语义的 3D 人体动作，实现由多个动作组成的时间动作构成。

Sep, 2022

LGTM: 本地到全局的文本驱动人体运动扩散模型

本研究介绍了 LGTM，一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构，旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题，首先使用大型语言模型将全局动作描述分解为特定部位的叙述，然后使用独立的身体部位运动编码器处理以确保准确的局部语义对齐。最后，基于注意力机制的全身优化器对运动生成结果进行细化，并确保整体一致性。实验结果表明，LGTM 在生成局部准确、语义对齐的人体动作方面取得了显著改进，标志着文本到动作应用的重要进展。

May, 2024