本研究提出了一种基于扩散模型的动作生成框架ReMoDiffuse,它集成了一种检索机制以改善去噪过程,提高了文本驱动动作生成的通用性和多样性,并且在更多样化的动作生成方面表现出色,优于现有的最先进方法。
Apr, 2023
该论文提出了TMR方法,利用对比损失结构化跨模态潜在空间,提高文本到3D人体运动检索的性能,并在多个数据集上验证了其优越性能,同时也展示了其在时刻检索方面的潜力。
May, 2023
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的Motion Transformer模型,对大量3D骨骼序列进行内容检索,实现了相应的定量度量评估。
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于Transformer的VQ-VAE得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在HumanML3D和KIT-ML数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
DiverseMotion 是一种新的方法,通过保持运动多样性,在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。
Sep, 2023
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在HumanML3D和KIT测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
通过细粒度人体动作扩散模型 (FG-MDM) ,我们成功地生成了符合文本描述的多样化和高质量的人类动作,即使在训练数据分布之外。
Dec, 2023
基于OMG框架,我们通过预训练和微调将文本转动作的生成过程进行改进,并引入motion ControlNet和Mixture-of-Controllers模块,实现了针对零样本文本生成动作的显著提升。
建立一个大规模的细粒度文本-运动数据集FineHumanML3D,并设计一种新的文本生成运动模型FineMotionDiffuse,以更好地生成空间/时间上的综合动作。
Mar, 2024
通过使用预训练的 LLM 模型进行微调,本研究提出了 MotionLLM,一个简单且通用的框架,可实现单人和多人运动生成以及动作字幕生成。
May, 2024