DiffusionPhase: 频域中的运动扩散

Dec, 2023

DiffusionPhase: Motion Diffusion in Frequency Domain

Weilin Wan, Yiming Huang, Shutong Wu, Taku Komura, Wenping Wang...

TL;DR本研究介绍一种基于学习的方法，用于从文本描述中生成高质量的人类运动序列，通过在频域上进行文本条件下的人体运动生成，实现了更多样化和平滑的运动序列生成。

Abstract

In this study, we introduce a learning-based method for generating high-quality human motion sequences from text descriptions (e.g., ``A p

learning-based method human motion sequences text descriptions frequency domain smooth transitions

发现论文，激发创造

运动漫化：基于扩散模型的文本驱动人体动作生成

MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架，可以通过概率映射、真实的合成方式，以及多级操作等方法，有效地生成复杂和多种变化的人类运动。

Aug, 2022

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

多样动作：通过离散扩散实现多样人体动作生成

DiverseMotion 是一种新的方法，通过保持运动多样性，在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。

Sep, 2023

基础到高级的分层传播模型实现详细的文本到动作合成

提出了一种基础到高级的分层扩散模型（B2A-HDM），用于协同利用低维和高维扩散模型进行高质量的详细动作合成，其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。

Dec, 2023

面向开放领域的多人动作驱动文本合成

本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息，通过基于 Transformer 的扩散框架，实现了多个数据集中任意数量主题或帧的生成。实验证明，我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。

May, 2024

从细粒度文本描述生成运动

建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D，并设计一种新的文本生成运动模型 FineMotionDiffuse，以更好地生成空间 / 时间上的综合动作。

Mar, 2024

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

通过一致的采样使用扩散模型合成长期人类运动

我们提出了一种新方法，利用过去条件扩散模型和两种可选的相干采样方法：过去修复采样和组合过渡采样，实现由用户指导的长文本流控制的组合和连贯的长期三维人体动作生成。

Aug, 2023

使用扩散模型进行受形状限制的人体动作生成

我们提出了一种基于形状条件的运动扩散模型（SMD），该模型可以直接在网格格式中生成运动序列，并结合了频谱 - 时间自编码器（STAE）以在频谱域内利用跨时依赖关系。通过广泛的实验评估，我们证明了 SMD 不仅可以生成栩栩如生的真实动作，而且在文本转换和动作转换任务中与最先进的方法相比具有竞争力的性能。

May, 2024

频域中的时域一致的人类动作转移研究

本文提出了一种名为 FreMOTR 的基于频域的人体运动转移框架，通过深入分析自然和合成视频在空间维度和时间维度的频率差异，利用频域外观正则化和时间频率正则化模块，有效缓解空间伪影和时间不一致性，进一步提高了合成视频帧级别视觉质量和时间一致性指标。

Sep, 2022