从细粒度文本描述生成运动
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法,通过将运动描述分解成三个层次的语义图,从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制,并对分解的文本到运动扩散过程进行了优化,通过修改分层语义图的边权重,实现了生成运动的持续细化,具有超过基准数据集 HumanML3D 和 KIT 的优越性能。
Nov, 2023
MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架,可以通过概率映射、真实的合成方式,以及多级操作等方法,有效地生成复杂和多种变化的人类运动。
Aug, 2022
通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型,本研究探讨了视频与图片的信息性差异,着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题,并证明了利用动作描述提高视频 - 文本模型对于细致动作的理解的方法的有效性。
Jun, 2024
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024