基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

May, 2024

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer

Zichen Geng, Caren Han, Zeeshan Hayder, Jian Liu, Mubarak Shah...

TL;DR提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

Abstract

text-driven human motion generation is an emerging task in animation and humanoid robot design. Existing algorithms directly generate the full sequence which is computationally expensive and prone to errors as it does not pay special attention to key poses, a process that has been the

text-driven human motion generation keyframes variational autoencoder parallel skip transformer motion-in-filling

发现论文，激发创造

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

面向开放领域的多人动作驱动文本合成

本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息，通过基于 Transformer 的扩散框架，实现了多个数据集中任意数量主题或帧的生成。实验证明，我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。

May, 2024

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022

文本驱动的人类视频生成

本文提出了 Text2Performer 算法，基于文本描述生成拥有精细动作的逼真人类视频，并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计：将 VQVAE 潜空间表示细分为人物形象和姿势表示，并通过连续 VQ-diffuser 对姿势编码进行采样，得到更好的动作建模。该算法在多项实验中表现出成果丰硕。

Apr, 2023

T2M-HiFiGPT: 从文本描述中生成高质量的人体运动，使用离散残差表示

我们介绍了 T2M-HiFiGPT，这是一种生成人体动作的新型条件生成框架，其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明，我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT，能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量，并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色，在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究，我们进一步验证了我们框架的有效性，并考察了每个组件的贡献。我们的发现表明，相比 VQ-VAE 类型的模型，RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作，而且计算需求相当。因此，T2M-HiFiGPT 能够以显著提高的准确性生成人体动作，优于最新的基于扩散和 GPT 的方法，如 T2M-GPT 和 Att-T2M。

Dec, 2023

大规模文本 - 条件下 3D 人体运动生成动画

本文提出了一种用于生成各种姿态和提示的基于文本的人体运动生成模型 Make-An-Animation，训练包括使用从大规模图像文本数据集中提取得到的（文本，静态伪姿势）对的精选大规模数据集以及微调运动捕捉数据，并使用 U-Net 架构，达到了 text-to-motion 生成中最先进的性能水平。

May, 2023

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023