文本驱动的人体动作生成的逐渐丰富合成

Jan, 2024

文本驱动的人体动作生成的逐渐丰富合成

GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion Generation

Xuehao Gao, Yang Yang, Zhenyu Xie, Shaoyi Du, Zhongqian Sun...

TL;DR本研究提出了一种基于级联扩散的生成框架，用于文本驱动的人体动作合成，该框架利用了一种名为GradUally Enriching SyntheSis（GUESS）的策略。通过将语义上紧密相连的身体关节进行聚类分组，并用单个身体部分节点替换每个关节组，该策略逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。采用逐渐增加的抽象级别，人体动作变得更加简洁和稳定，显著改善了跨模态动作合成任务。然后，将整个文本驱动的人体动作合成问题划分为多个抽象级别，并利用级联潜在扩散模型的多阶段生成框架解决：初始生成器首先从给定的文本描述中生成最粗糙的人体动作猜测；然后，一系列连续的生成器根据文本描述和之前合成的结果逐渐丰富动作细节。值得注意的是，我们进一步将GUESS与所提出的动态多条件融合机制相结合，以动态平衡给定的文本条件和合成粗动作提示在不同生成阶段的合作效应。大规模数据集上的广泛实验证明，GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。

Abstract

In this paper, we propose a novel cascaded diffusion-based generative framework for text-driven human motion synthesis, which exploits a strategy named →

发现论文，激发创造

运动漫化: 基于扩散模型的文本驱动人体动作生成

MotionDiffuse是一种基于扩散模型的文本驱动运动生成框架, 可以通过概率映射、真实的合成方式, 以及多级操作等方法, 有效地生成复杂和多种变化的人类运动。

Aug, 2022

大规模文本-条件下 3D 人体运动生成动画

本文提出了一种用于生成各种姿态和提示的基于文本的人体运动生成模型Make-An-Animation，训练包括使用从大规模图像文本数据集中提取得到的（文本，静态伪姿势）对的精选大规模数据集以及微调运动捕捉数据，并使用U-Net架构，达到了text-to-motion生成中最先进的性能水平。

May, 2023

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的3D人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在HumanML3D和KIT-ML上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

多样动作：通过离散扩散实现多样人体动作生成

DiverseMotion 是一种新的方法，通过保持运动多样性，在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。

Sep, 2023

随心所欲：具有层次语义图的运动扩散模型细粒度控制

提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法，通过将运动描述分解成三个层次的语义图，从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制，并对分解的文本到运动扩散过程进行了优化，通过修改分层语义图的边权重，实现了生成运动的持续细化，具有超过基准数据集HumanML3D和KIT的优越性能。

Nov, 2023

使用ChatGPT改进的描述生成精细人类动作

通过细粒度人体动作扩散模型 (FG-MDM) ，我们成功地生成了符合文本描述的多样化和高质量的人类动作，即使在训练数据分布之外。

Dec, 2023

基础到高级的分层传播模型实现详细的文本到动作合成

提出了一种基础到高级的分层扩散模型（B2A-HDM），用于协同利用低维和高维扩散模型进行高质量的详细动作合成，其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。

Dec, 2023

AMD：解剖运动扩散与可解释运动分解与融合

通过利用大型语言模型解析输入的文本为与目标动作相对应的简明易懂的解剖脚本序列，本文提出了适应性运动扩散 (AMD) 模型，以解决现有方法难以处理复杂或长动作描述的问题。通过制定平衡输入文本和解剖脚本对逆扩散过程影响的两支融合方案，本方法能够自适应地确保合成动作的语义保真度和多样性。在包含较为复杂动作的数据集（例如 CLCD1 和 CLCD2）上的实验证明，我们的 AMD 显著优于现有的最先进模型。

Dec, 2023

面向开放领域的多人动作驱动文本合成

本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息，通过基于Transformer的扩散框架，实现了多个数据集中任意数量主题或帧的生成。实验证明，我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。

May, 2024

LEAD：人类运动扩散的潜在重对齐

本研究解决了现代方法在模型表达能力与文本到运动对齐之间的权衡问题，通过结合潜在扩散与重对齐机制，生成具有语义结构的运动空间。实验表明，我们的方法在现实性、多样性和文本运动一致性方面与最先进技术相媲美，且在运动文本反演任务中表现出更好的特征捕捉能力。

Oct, 2024