MotionChain: 通过多模态提示进行对话式动作控制
通过量化多种身体部位的运动为其各自领域定制的码本,利用预训练模型将多模态信号转换为共享的潜在空间,并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌,最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务,利用基于控制信号模态的专门码本,具有可扩展性,能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。
Nov, 2023
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
Jun, 2024
本文提出了一种使用多模态控制信号的运动通用生成器(MotionGPT),它将多模态信号作为大型语言模型(LLMs)中的特殊输入令牌来生成连续的人类动作,是首次使用多模态控制信号生成人类动作的方法。
Jun, 2023
本研究使用人类语音的多模态信息来改进生成 3D 手势,通过引入多模态先验作为约束来提高手势生成的质量,采用链式建模方法顺序生成面部融合形状、身体动作和手势,并结合从面部变形中得出的节奏提示和基于语音情感的风格化先验以生成手势,通过引入多模态先验,提高生成手势质量,消除了推断期间昂贵的设置准备的需求,大量实验证实我们的方法达到了最先进的性能。
Dec, 2023
本文提出了一种统一的,多功能的运动语言模型 MotionGPT,旨在通过将语言数据与大规模运动模型相结合,开发出能够增强涉及运动的任务的预训练模型,实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
Jun, 2023
通过使用预训练的 LLM 模型进行微调,本研究提出了 MotionLLM,一个简单且通用的框架,可实现单人和多人运动生成以及动作字幕生成。
May, 2024
提出了一种名为 KeyMotion 的方法,通过生成关键帧并进行填充,实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器(VAE)将关键帧投影到潜空间,来减少维度和加速扩散过程。同时,引入了一种新的并行跳过注意力机制的 Transformer,用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充,确保运动序列的保真度和遵循人体运动的物理约束。实验证明,该方法在 HumanML3D 数据集上达到了最先进的结果,所有 R-Precision 度量和多模态距离指标均优于其他方法。同时,在 KIT 数据集上也获得了有竞争力的性能,在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。
May, 2024
我们介绍了一种利用稀疏关键点在三维场景中合成动画指导人类运动的方法,该方法通过将连续运动合成问题分解为沿路径行走和在关键点指定的动作之间的转换,生成长序列的动作,并在目标为原点的规范坐标系中生成运动以实现持续运动合成。
Apr, 2023
人体运动生成是生成自然人体姿势序列的目标,具有广泛的实际应用潜力。本文是人体运动生成领域的首篇综述文献,介绍了人体运动和生成模型的背景,并对三个主流子任务(文本条件、音频条件和场景条件的人体运动生成)的代表方法进行了审查。此外,还概述了常见数据集和评估指标,并讨论了开放问题和潜在的未来研究方向。希望该综述能够为社区提供对这个快速发展领域的全面了解,并激发解决尚未解决的挑战的新思路。
Jul, 2023
在 3D 环境中,尽管在文本到运动合成方面取得了重大进展,但仍存在许多挑战,我们通过引入一种新的两阶段框架,使用场景赋能作为中间表示,有效地链接 3D 场景定位和条件运动生成,克服了生成多模态条件信号下的人类运动困难,特别是在缺乏广泛的语言 - 场景 - 运动数据对的有限数据训练时,验证了模型的出色泛化能力。
Mar, 2024