多模态多部分人体动作综合的统一框架
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
Jun, 2024
本研究使用人类语音的多模态信息来改进生成 3D 手势,通过引入多模态先验作为约束来提高手势生成的质量,采用链式建模方法顺序生成面部融合形状、身体动作和手势,并结合从面部变形中得出的节奏提示和基于语音情感的风格化先验以生成手势,通过引入多模态先验,提高生成手势质量,消除了推断期间昂贵的设置准备的需求,大量实验证实我们的方法达到了最先进的性能。
Dec, 2023
本文提出了一种使用多模态控制信号的运动通用生成器(MotionGPT),它将多模态信号作为大型语言模型(LLMs)中的特殊输入令牌来生成连续的人类动作,是首次使用多模态控制信号生成人类动作的方法。
Jun, 2023
通过使用混合点表示,并结合对比运动学习方法,本研究提出了一种从语音中生成全身动作的模型,以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。
Nov, 2023
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
使用多模态生成框架,结合文本和图像训练双向变压器等多重输入来预测离散视频表示,同时提供改进的样本视频代币和文本增广,以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态,可以通过文本提示生成对应视频,并在四个数据集上取得了最新的生成结果。
Mar, 2022
多条件人体动作合成任务的目标是结合多样的条件输入,例如文本、音乐、语音等,使任务能够适应于多种场景,从文本到动作、音乐到舞蹈等。本文引入了 MCM 框架,通过与任何 DDPM 类扩散模型相结合,实现多条件信息输入,同时保持其生成能力。我们还引入了一种基于 Transformer 的扩散模型 MWNet 作为我们的主要分支,通过通道维度的自注意力模块捕捉运动序列中的空间复杂性和关节之间的相关性。定量比较表明,我们的方法在文本到动作任务中取得了 SOTA 结果,并在音乐到舞蹈任务中取得了竞争性结果,可与任务特定的方法相媲美。此外,定性评估表明,MCM 不仅简化了原本设计用于文本到动作任务的方法在音乐到舞蹈和语音到手势等领域的适应性,消除了对网络重构的需求,而且实现了有效的多条件模态控制,实现了 “训练一次,生成动作无限”。
Sep, 2023
通过使用预训练的 LLM 模型进行微调,本研究提出了 MotionLLM,一个简单且通用的框架,可实现单人和多人运动生成以及动作字幕生成。
May, 2024
本文针对现有智能场景下的动作合成技术存在的目标、位置预定及动作多样性不足等问题,提出了一种基于多样性因素的分层框架方法,以提高人类动作合成的自然度与多样性。实验表明,该框架在场景感知的人类动作合成中具有很好的效果。
May, 2022