优先级中心的离散潜空间人体运动生成

Aug, 2023

优先级中心的离散潜空间人体运动生成

Priority-Centric Human Motion Generation in Discrete Latent Space

Hanyang Kong, Kehong Gong, Dongze Lian, Michael Bi Mi, Xinchao Wang

TL;DR文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于Transformer的VQ-VAE得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在HumanML3D和KIT-ML数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Abstract

text-to-motion generation is a formidable task, aiming to produce human motions that align with the input text while also adhering to human capabilities and physical laws. While there have been advancements in diffusion models, their application in discrete spaces remains underexplored

发现论文，激发创造

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的3D人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在HumanML3D和KIT-ML上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

多样动作：通过离散扩散实现多样人体动作生成

DiverseMotion 是一种新的方法，通过保持运动多样性，在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。

Sep, 2023

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在HumanML3D和KIT测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

DiffusionPhase: 频域中的运动扩散

本研究介绍一种基于学习的方法，用于从文本描述中生成高质量的人类运动序列，通过在频域上进行文本条件下的人体运动生成，实现了更多样化和平滑的运动序列生成。

Dec, 2023

基础到高级的分层传播模型实现详细的文本到动作合成

提出了一种基础到高级的分层扩散模型（B2A-HDM），用于协同利用低维和高维扩散模型进行高质量的详细动作合成，其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。

Dec, 2023

AMD：解剖运动扩散与可解释运动分解与融合

通过利用大型语言模型解析输入的文本为与目标动作相对应的简明易懂的解剖脚本序列，本文提出了适应性运动扩散 (AMD) 模型，以解决现有方法难以处理复杂或长动作描述的问题。通过制定平衡输入文本和解剖脚本对逆扩散过程影响的两支融合方案，本方法能够自适应地确保合成动作的语义保真度和多样性。在包含较为复杂动作的数据集（例如 CLCD1 和 CLCD2）上的实验证明，我们的 AMD 显著优于现有的最先进模型。

Dec, 2023

基于文本驱动的人类动作生成与运动屏蔽扩散模型

该研究解决了现有文本驱动人类动作生成模型在与文本描述相符的高多样性生成能力不足的问题。提出的运动屏蔽扩散模型（MMDM）通过引入特定的运动掩蔽机制，增强了模型在时空语义上下文中学习运动关系的能力。实验证明，该模型在保持运动质量和文本一致性方面表现出色，具有潜在的应用价值。

Sep, 2024

LEAD：人类运动扩散的潜在重对齐

本研究解决了现代方法在模型表达能力与文本到运动对齐之间的权衡问题，通过结合潜在扩散与重对齐机制，生成具有语义结构的运动空间。实验表明，我们的方法在现实性、多样性和文本运动一致性方面与最先进技术相媲美，且在运动文本反演任务中表现出更好的特征捕捉能力。

Oct, 2024

重新思考基于扩散的文本驱动人类运动生成

本研究解决了基于向量量化的离散生成方法在生成多样性和信息损失方面的限制，更新了人类动画生成领域的技术框架。通过引入优化的数据表示和分布，提出了一种双向掩蔽自回归的人类运动扩散模型，克服了现有扩散方法的问题，并在基准测试中取得了优秀的表现，展示了其潜在影响。

Nov, 2024

PackDiT：通过互促实现人类运动和文本生成

本研究解决了人类运动生成和文本生成之间缺乏双向生成能力的不足。通过引入PackDiT，这一新型扩散生成模型实现了多模态之间的联合运动与文本生成，显著提升了文本到运动和运动到文本的生成性能。实验结果显示，PackDiT在文本到运动生成上达到了最先进的表现，并在运动预测等任务中表现优越。

Jan, 2025