从细粒度文本描述生成运动

Mar, 2024

Motion Generation from Fine-grained Textual Descriptions

Kunhang Li, Yansong Feng

TL;DR建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D，并设计一种新的文本生成运动模型 FineMotionDiffuse，以更好地生成空间 / 时间上的综合动作。

Abstract

The task of text2motion is to generate motion sequences from given textual descriptions, where a model should explore the interactions between natural language instructions and human body movements. While most ex

text2motion fine-grained textual descriptions motion sequences language-motion dataset finemotiondiffuse

发现论文，激发创造

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

使用 ChatGPT 改进的描述生成精细人类动作

通过细粒度人体动作扩散模型 (FG-MDM) ，我们成功地生成了符合文本描述的多样化和高质量的人类动作，即使在训练数据分布之外。

Dec, 2023

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

随心所欲：具有层次语义图的运动扩散模型细粒度控制

提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法，通过将运动描述分解成三个层次的语义图，从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制，并对分解的文本到运动扩散过程进行了优化，通过修改分层语义图的边权重，实现了生成运动的持续细化，具有超过基准数据集 HumanML3D 和 KIT 的优越性能。

Nov, 2023

运动漫化：基于扩散模型的文本驱动人体动作生成

MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架，可以通过概率映射、真实的合成方式，以及多级操作等方法，有效地生成复杂和多种变化的人类运动。

Aug, 2022

深入了解视频文本模型的运动表示

通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型，本研究探讨了视频与图片的信息性差异，着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题，并证明了利用动作描述提高视频 - 文本模型对于细致动作的理解的方法的有效性。

Jun, 2024

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

FineMoGen: 细粒度时空运动生成与编辑

FineMoGen 是一个基于扩散模型的运动生成和编辑框架，可以合成细粒度的运动，并以用户指令为依据进行空间 - 时间组合。

Dec, 2023

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

面向开放领域的多人动作驱动文本合成

本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息，通过基于 Transformer 的扩散框架，实现了多个数据集中任意数量主题或帧的生成。实验证明，我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。

May, 2024