TEMOS: 从文本描述生成多样化的人类动作
基于去噪扩散模型,我们提出了一种用于文本控制的场景感知运动生成方法。该方法通过预训练场景不可知的文本到运动扩散模型,并利用包含详细场景信息的增强数据对模型进行微调,产生逼真多样的人 - 场景互动。
Apr, 2024
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
提出了一种名为 KeyMotion 的方法,通过生成关键帧并进行填充,实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器(VAE)将关键帧投影到潜空间,来减少维度和加速扩散过程。同时,引入了一种新的并行跳过注意力机制的 Transformer,用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充,确保运动序列的保真度和遵循人体运动的物理约束。实验证明,该方法在 HumanML3D 数据集上达到了最先进的结果,所有 R-Precision 度量和多模态距离指标均优于其他方法。同时,在 KIT 数据集上也获得了有竞争力的性能,在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。
May, 2024
基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点,本文提出了使用多角度注意机制的两阶段方法,即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制,通过生成变压器实现文本驱动的运动生成,在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术,并实现了精细合成和动作生成。
Sep, 2023
该研究提出了一个全新的基于文本驱动的整体运动生成任务,以给定的文本描述为输入,并旨在同时生成高质量、多样且连贯的面部表情、手势和身体动作。该研究通过一个名为 HumanTOMATO 的文本对齐全身运动生成框架,解决了以往关于文本驱动动作生成任务的两个限制,即忽视了精细的手部和面部控制在栩栩如生的整体运动生成中的重要作用,并且缺乏文本和运动之间的良好对齐。通过全面实验证明,该模型在生成的动作质量和与文本的对齐方面具有显著优势。
Oct, 2023
利用 BABEL 动作文本集合,设计了一种基于 Transformer 的 TEACH 方法,能够根据自然语言描述生成符合语义的 3D 人体动作,实现由多个动作组成的时间动作构成。
Sep, 2022
我们介绍了 T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明,我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT,能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量,并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色,在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究,我们进一步验证了我们框架的有效性,并考察了每个组件的贡献。我们的发现表明,相比 VQ-VAE 类型的模型,RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作,而且计算需求相当。因此,T2M-HiFiGPT 能够以显著提高的准确性生成人体动作,优于最新的基于扩散和 GPT 的方法,如 T2M-GPT 和 Att-T2M。
Dec, 2023