MoMask: 生成式遮蔽建模 3D 人体动作

Nov, 2023

MoMask: 生成式遮蔽建模 3D 人体动作

MoMask: Generative Masked Modeling of 3D Human Motions

Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng

TL;DRMoMask 是一种新颖的掩码建模框架，用于文本驱动的 3D 人体动作生成，通过分层量化方案将人体动作表示为多层离散动作令牌，并使用两个不同的双向转换器进行预测和填补，实验证明在文本到动作生成任务中，MoMask 在 HumanML3D 数据集上的 FID 为 0.045（相较于 T2M-GPT 的 0.141）以及在 KIT-ML 上的 FID 为 0.228（相较于 0.514），同时可以无缝应用于文本引导的时间修补等相关任务。

Abstract

We introduce momask, a novel masked modeling framework for text-driven 3D human motion generation. In momask, a →

momask masked modeling framework text-driven 3d human motion generation hierarchical quantization scheme text input

发现论文，激发创造

MMM：生成遮蔽动作模型

基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器，MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射，并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码，从而同时实现了高保真度和高速度的动作生成。此外，MMM 具有固有的动作可编辑性，只需在需要编辑的位置放置掩码标记，即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法（FID 得分分别为 0.08 和 0.429），同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外，与可编辑动作扩散模型相比，MMM 在单个中档 GPU 上的速度提高了两个数量级。

Dec, 2023

HumanMAC: 用于人体动作预测的遮挡运动补全技术

本文提出了一种基于去噪扩散的新框架，通过训练一个运动扩散模型来生成运动，然后通过去噪过程实现在观察到的运动条件下进行运动预测，并在现实任务中有效地实现了不同类别运动的切换，取得了良好的算法性能和结果。

Feb, 2023

基于分块骨架的统一遮蔽自编码器用于动作合成

UNIMASK-M 模型是一种任务独立模型，有效地解决了预测未来动作、填充已知关键动作之间的中间姿势等挑战，通过将人体姿势分解为身体部位并利用存在于人体运动中的时空关系，将各种面向姿势的运动综合任务重新定义为使用不同屏蔽模式的重构问题。实验结果表明，该模型在 Human3.6M 数据集上成功预测了人体运动，并在 LaFAN1 数据集上实现了时长较长的过渡期内的运动插值的最新成果。

Aug, 2023

面具化运动预测器是强大的三维动作表示学习器

本文提出了一种用于 3D 动作识别的 Masked Motion Prediction（MAMP）框架，通过对蒙面的空间 - 时间骨骼序列进行预测，实现对丰富语义区域的更好关注，进而提高自监督预训练的性能。经过对 NTU-60、NTU-120 和 PKU-MMD 数据集的广泛实验，表明所提出的 MAMP 预训练方法显著提高了基础的 transformer 模型的性能，并取得了最先进的结果。MAMP 的源代码可以在给定的网址上找到。

Aug, 2023

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

T2M-HiFiGPT: 从文本描述中生成高质量的人体运动，使用离散残差表示

我们介绍了 T2M-HiFiGPT，这是一种生成人体动作的新型条件生成框架，其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明，我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT，能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量，并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色，在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究，我们进一步验证了我们框架的有效性，并考察了每个组件的贡献。我们的发现表明，相比 VQ-VAE 类型的模型，RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作，而且计算需求相当。因此，T2M-HiFiGPT 能够以显著提高的准确性生成人体动作，优于最新的基于扩散和 GPT 的方法，如 T2M-GPT 和 Att-T2M。

Dec, 2023

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

May, 2024

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

TM2T: 随机和分词建模用于生成 3D 人体动作和文本的互相作用

本文探讨了从文本生成 3D 全身运动的问题，并提出了运动令牌的使用方法，结合神经机器翻译模型进行任务的处理，通过实验数据对比，表明我们的方法在这两个任务上具有优越性。

Jul, 2022

PoseGPT：基于量化的三维人体动作生成和预测

提出了一种基于 PoseGPT 的自回归变换器的方法，该方法可以生成人体运动序列，利用离散的潜在空间使 GPT-like 模型集中于长程信号预测，获得了在几个数据集上实现最先进的结果。

Oct, 2022