运动漫化:基于扩散模型的文本驱动人体动作生成
我们介绍了跨人类运动扩散模型(CrossDiff),这是一种基于文本描述生成高质量人体运动的新方法。我们的方法使用共享的变换器网络在扩散模型的训练中整合了 3D 和 2D 信息,将运动噪声统一到一个特征空间中。这使得特征能够被解码为 3D 和 2D 运动表示,而不管它们的原始维度如何。CrossDiff 的主要优势在于其跨扩散机制,它允许模型在训练过程中将 2D 或 3D 噪声转化为清晰的运动。这种能力利用了 3D 和 2D 运动表示中的互补信息,捕捉了常常被单纯依赖 3D 信息的模型所忽视的复杂人体运动细节。因此,CrossDiff 有效地结合了两种表示的优势,生成了更加真实的运动序列。在我们的实验中,我们的模型在文本到运动基准上展示了具有竞争力的最新性能。此外,我们的方法始终提供了增强的运动生成质量,捕捉了复杂的全身运动细节。此外,在具有预训练模型的情况下,我们的方法适用于在训练过程中使用野外 2D 运动数据而无需 3D 运动的真实值来生成 3D 运动,凸显了其在更广泛应用和有效利用可用数据资源方面的潜力。
Dec, 2023
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
提出了一种基础到高级的分层扩散模型(B2A-HDM),用于协同利用低维和高维扩散模型进行高质量的详细动作合成,其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。
Dec, 2023
本文引入了 Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。
Sep, 2022
本研究提出了一种基于扩散模型的动作生成框架 ReMoDiffuse,它集成了一种检索机制以改善去噪过程,提高了文本驱动动作生成的通用性和多样性,并且在更多样化的动作生成方面表现出色,优于现有的最先进方法。
Apr, 2023
DiverseMotion 是一种新的方法,通过保持运动多样性,在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。
Sep, 2023
本文提出了一种基于文本的运动合成技术,使用 DiffKFC 建立了一个条件扩散模型,该模型结合了关键帧来协作控制运动,通过 Dilated Mask Attention 模块来实现对身体姿势的微观描述,以实现高效、协同、粗细粒度的生成运动的目的。实验表明,本模型在人机交互 3D 和 KIT 等文本到运动数据集上表现出了最先进的性能。
May, 2023
本研究介绍一种基于学习的方法,用于从文本描述中生成高质量的人类运动序列,通过在频域上进行文本条件下的人体运动生成,实现了更多样化和平滑的运动序列生成。
Dec, 2023
建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D,并设计一种新的文本生成运动模型 FineMotionDiffuse,以更好地生成空间 / 时间上的综合动作。
Mar, 2024
Controllable generation of 3D human motions using MotionMix, a weakly-supervised diffusion model, achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks.
Jan, 2024