MMM：生成遮蔽动作模型

Dec, 2023

MMM: Generative Masked Motion Model

Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen

TL;DR基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器，MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射，并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码，从而同时实现了高保真度和高速度的动作生成。此外，MMM 具有固有的动作可编辑性，只需在需要编辑的位置放置掩码标记，即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法（FID 得分分别为 0.08 和 0.429），同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外，与可编辑动作扩散模型相比，MMM 在单个中档 GPU 上的速度提高了两个数量级。

Abstract

Recent advances in text-to-motion generation using diffusion and autoregressive models have shown promising results. However, these models often suffer from a trade-off between real-time performance, high fidelity, and

text-to-motion generation mmm motion tokenizer masked motion transformer motion editability

发现论文，激发创造

MoMask: 生成式遮蔽建模 3D 人体动作

MoMask 是一种新颖的掩码建模框架，用于文本驱动的 3D 人体动作生成，通过分层量化方案将人体动作表示为多层离散动作令牌，并使用两个不同的双向转换器进行预测和填补，实验证明在文本到动作生成任务中，MoMask 在 HumanML3D 数据集上的 FID 为 0.045（相较于 T2M-GPT 的 0.141）以及在 KIT-ML 上的 FID 为 0.228（相较于 0.514），同时可以无缝应用于文本引导的时间修补等相关任务。

Nov, 2023

BAMM: 双向自回归运动模型

提出了一种新的文本到动作生成框架：Bidirectional Autoregressive Motion Model (BAMM)，它由两个关键组件组成：将 3D 人体动作转换为潜在空间中的离散标记的动作分词器和通过混合注意掩蔽策略自回归预测随机屏蔽标记的掩蔽自注意力变换器。通过统一生成掩蔽建模和自回归建模，BAMM 捕捉了动作标记之间丰富而双向的依赖关系，同时学习了从文本输入到动作输出的概率映射，并具有动态调整的动作序列长度。大量在 HumanML3D 和 KIT-ML 数据集上的实验证明，BAMM 在定性和定量指标上均超过了当前最先进的方法。

Mar, 2024

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

TM2T: 随机和分词建模用于生成 3D 人体动作和文本的互相作用

本文探讨了从文本生成 3D 全身运动的问题，并提出了运动令牌的使用方法，结合神经机器翻译模型进行任务的处理，通过实验数据对比，表明我们的方法在这两个任务上具有优越性。

Jul, 2022

HumanMAC: 用于人体动作预测的遮挡运动补全技术

本文提出了一种基于去噪扩散的新框架，通过训练一个运动扩散模型来生成运动，然后通过去噪过程实现在观察到的运动条件下进行运动预测，并在现实任务中有效地实现了不同类别运动的切换，取得了良好的算法性能和结果。

Feb, 2023

人类运动扩散模型

本文引入了 Motion Diffusion Model（MDM），这是一种经过精心设计的无分类器扩散生成模型，适用于人体运动领域，并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。

Sep, 2022

统一多模态运动生成的大型运动模型

大运动模型（LMM）是一个以运动为中心的多模态框架，将主流的运动生成任务统一为一个通用模型，并通过综合不同类型的运动数据和任务来实现广泛泛化。

Apr, 2024

面具化运动预测器是强大的三维动作表示学习器

本文提出了一种用于 3D 动作识别的 Masked Motion Prediction（MAMP）框架，通过对蒙面的空间 - 时间骨骼序列进行预测，实现对丰富语义区域的更好关注，进而提高自监督预训练的性能。经过对 NTU-60、NTU-120 和 PKU-MMD 数据集的广泛实验，表明所提出的 MAMP 预训练方法显著提高了基础的 transformer 模型的性能，并取得了最先进的结果。MAMP 的源代码可以在给定的网址上找到。

Aug, 2023

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

提出了一种名为 KeyMotion 的方法，通过生成关键帧并进行填充，实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器（VAE）将关键帧投影到潜空间，来减少维度和加速扩散过程。同时，引入了一种新的并行跳过注意力机制的 Transformer，用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充，确保运动序列的保真度和遵循人体运动的物理约束。实验证明，该方法在 HumanML3D 数据集上达到了最先进的结果，所有 R-Precision 度量和多模态距离指标均优于其他方法。同时，在 KIT 数据集上也获得了有竞争力的性能，在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。

May, 2024