基础到高级的分层传播模型实现详细的文本到动作合成
MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架,可以通过概率映射、真实的合成方式,以及多级操作等方法,有效地生成复杂和多种变化的人类运动。
Aug, 2022
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
本文提出了一种基于文本的运动合成技术,使用 DiffKFC 建立了一个条件扩散模型,该模型结合了关键帧来协作控制运动,通过 Dilated Mask Attention 模块来实现对身体姿势的微观描述,以实现高效、协同、粗细粒度的生成运动的目的。实验表明,本模型在人机交互 3D 和 KIT 等文本到运动数据集上表现出了最先进的性能。
May, 2023
通过利用大型语言模型解析输入的文本为与目标动作相对应的简明易懂的解剖脚本序列,本文提出了适应性运动扩散 (AMD) 模型,以解决现有方法难以处理复杂或长动作描述的问题。通过制定平衡输入文本和解剖脚本对逆扩散过程影响的两支融合方案,本方法能够自适应地确保合成动作的语义保真度和多样性。在包含较为复杂动作的数据集(例如 CLCD1 和 CLCD2)上的实验证明,我们的 AMD 显著优于现有的最先进模型。
Dec, 2023
本文引入了 Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。
Sep, 2022
提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法,通过将运动描述分解成三个层次的语义图,从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制,并对分解的文本到运动扩散过程进行了优化,通过修改分层语义图的边权重,实现了生成运动的持续细化,具有超过基准数据集 HumanML3D 和 KIT 的优越性能。
Nov, 2023
本研究介绍一种基于学习的方法,用于从文本描述中生成高质量的人类运动序列,通过在频域上进行文本条件下的人体运动生成,实现了更多样化和平滑的运动序列生成。
Dec, 2023
建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D,并设计一种新的文本生成运动模型 FineMotionDiffuse,以更好地生成空间 / 时间上的综合动作。
Mar, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023