LGTM: 本地到全局的文本驱动人体运动扩散模型

May, 2024

LGTM: 本地到全局的文本驱动人体运动扩散模型

LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model

Haowen Sun, Ruikun Zheng, Haibin Huang, Chongyang Ma, Hui Huang...

TL;DR本研究介绍了 LGTM，一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构，旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题，首先使用大型语言模型将全局动作描述分解为特定部位的叙述，然后使用独立的身体部位运动编码器处理以确保准确的局部语义对齐。最后，基于注意力机制的全身优化器对运动生成结果进行细化，并确保整体一致性。实验结果表明，LGTM 在生成局部准确、语义对齐的人体动作方面取得了显著改进，标志着文本到动作应用的重要进展。

Abstract

In this paper, we introduce lgtm, a novel local-to-global pipeline for text-to-motion generation. →

lgtm local-to-global pipeline text-to-motion generation diffusion-based architecture semantic alignment

发现论文，激发创造

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024

使用 ChatGPT 改进的描述生成精细人类动作

通过细粒度人体动作扩散模型 (FG-MDM) ，我们成功地生成了符合文本描述的多样化和高质量的人类动作，即使在训练数据分布之外。

Dec, 2023

从细粒度文本描述生成运动

建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D，并设计一种新的文本生成运动模型 FineMotionDiffuse，以更好地生成空间 / 时间上的综合动作。

Mar, 2024

运动漫化：基于扩散模型的文本驱动人体动作生成

MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架，可以通过概率映射、真实的合成方式，以及多级操作等方法，有效地生成复杂和多种变化的人类运动。

Aug, 2022

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

MotionGPT：经过微调的 LLM 是通用运动生成器

本文提出了一种使用多模态控制信号的运动通用生成器（MotionGPT），它将多模态信号作为大型语言模型（LLMs）中的特殊输入令牌来生成连续的人类动作，是首次使用多模态控制信号生成人类动作的方法。

Jun, 2023

统一多模态运动生成的大型运动模型

大运动模型（LMM）是一个以运动为中心的多模态框架，将主流的运动生成任务统一为一个通用模型，并通过综合不同类型的运动数据和任务来实现广泛泛化。

Apr, 2024

MotionGPT：以人类动作为外语

本文提出了一种统一的，多功能的运动语言模型 MotionGPT，旨在通过将语言数据与大规模运动模型相结合，开发出能够增强涉及运动的任务的预训练模型，实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。

Jun, 2023

AMD：解剖运动扩散与可解释运动分解与融合

通过利用大型语言模型解析输入的文本为与目标动作相对应的简明易懂的解剖脚本序列，本文提出了适应性运动扩散 (AMD) 模型，以解决现有方法难以处理复杂或长动作描述的问题。通过制定平衡输入文本和解剖脚本对逆扩散过程影响的两支融合方案，本方法能够自适应地确保合成动作的语义保真度和多样性。在包含较为复杂动作的数据集（例如 CLCD1 和 CLCD2）上的实验证明，我们的 AMD 显著优于现有的最先进模型。

Dec, 2023