多样动作:通过离散扩散 实现多样人体动作生成
本文提出了一种统一的,多功能的运动语言模型MotionGPT,旨在通过将语言数据与大规模运动模型相结合,开发出能够增强涉及运动的任务的预训练模型,实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
Jun, 2023
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于Transformer的VQ-VAE得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在HumanML3D和KIT-ML数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法,通过将运动描述分解成三个层次的语义图,从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制,并对分解的文本到运动扩散过程进行了优化,通过修改分层语义图的边权重,实现了生成运动的持续细化,具有超过基准数据集HumanML3D和KIT的优越性能。
Nov, 2023
本研究提出了一种基于级联扩散的生成框架,用于文本驱动的人体动作合成,该框架利用了一种名为GradUally Enriching SyntheSis(GUESS)的策略。通过将语义上紧密相连的身体关节进行聚类分组,并用单个身体部分节点替换每个关节组,该策略逐步将人体姿态抽象为多个粒度级别上的更粗糙的骨架。采用逐渐增加的抽象级别,人体动作变得更加简洁和稳定,显著改善了跨模态动作合成任务。然后,将整个文本驱动的人体动作合成问题划分为多个抽象级别,并利用级联潜在扩散模型的多阶段生成框架解决:初始生成器首先从给定的文本描述中生成最粗糙的人体动作猜测;然后,一系列连续的生成器根据文本描述和之前合成的结果逐渐丰富动作细节。值得注意的是,我们进一步将GUESS与所提出的动态多条件融合机制相结合,以动态平衡给定的文本条件和合成粗动作提示在不同生成阶段的合作效应。大规模数据集上的广泛实验证明,GUESS在准确性、逼真度和多样性方面优于现有的最先进方法。
Jan, 2024
我们提出了一种基于扩散模型的即时人体运动风格转移学习方法,通过几分钟的微调学习,可以将未知的风格转移到不同的内容运动中,且仅需要一个风格示例和以中立运动为主的文本到运动数据集(例如HumanML3D)。
Mar, 2024
通过使用预训练的 LLM 模型进行微调,本研究提出了 MotionLLM,一个简单且通用的框架,可实现单人和多人运动生成以及动作字幕生成。
May, 2024
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于Transformer的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
本研究解决了如何构建和基准化大规模运动模型(LMM)的问题。通过整合13个视频动作数据集,创建了MotionBank,包括124万条运动序列,提供了丰富的自然人类运动数据,改进了运动与文本的对齐,显著推动了人类运动生成及理解相关任务的发展。
Oct, 2024
本研究解决了现代方法在模型表达能力与文本到运动对齐之间的权衡问题,通过结合潜在扩散与重对齐机制,生成具有语义结构的运动空间。实验表明,我们的方法在现实性、多样性和文本运动一致性方面与最先进技术相媲美,且在运动文本反演任务中表现出更好的特征捕捉能力。
Oct, 2024
本研究解决了生成生动人类动作的文本描述时面临的控制方式有限和任务特定性的局限。提出的MotionGPT-2是一个统一的大型运动语言模型,通过创新的运动离散化框架,实现了对多种运动相关任务的适应,其主要发现表明该模型在运动生成、动作描述与运动补全等任务上具有优越的适应性和效果。
Oct, 2024