T2M-GPT: 使用离散表示生成基于文本描述的人体动作
我们介绍了 T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明,我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 GPT 结构包括了时间 GPT 和残差 GPT,能够有效地将先前帧和文本描述的信息压缩成 1D 上下文向量,并通过 RVQ-VAE 解码器将生成的残差离散指标转化回动作数据。我们的框架在 HumanML3D 和 KIT-ML 数据集上表现出色,在几乎所有主要指标上产生了异常的结果。通过对 HumanML3D 数据集进行全面的剔除研究,我们进一步验证了我们框架的有效性,并考察了每个组件的贡献。我们的发现表明,相比 VQ-VAE 类型的模型,RVQ-VAE 不仅更擅长捕捉精确的 3D 人体动作,而且计算需求相当。因此,T2M-HiFiGPT 能够以显著提高的准确性生成人体动作,优于最新的基于扩散和 GPT 的方法,如 T2M-GPT 和 Att-T2M。
Dec, 2023
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。
Aug, 2023
提出了一种基于 PoseGPT 的自回归变换器的方法,该方法可以生成人体运动序列,利用离散的潜在空间使 GPT-like 模型集中于长程信号预测,获得了在几个数据集上实现最先进的结果。
Oct, 2022
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
提出了一种名为 KeyMotion 的方法,通过生成关键帧并进行填充,实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器(VAE)将关键帧投影到潜空间,来减少维度和加速扩散过程。同时,引入了一种新的并行跳过注意力机制的 Transformer,用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充,确保运动序列的保真度和遵循人体运动的物理约束。实验证明,该方法在 HumanML3D 数据集上达到了最先进的结果,所有 R-Precision 度量和多模态距离指标均优于其他方法。同时,在 KIT 数据集上也获得了有竞争力的性能,在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。
May, 2024
本文提出了一种统一的,多功能的运动语言模型 MotionGPT,旨在通过将语言数据与大规模运动模型相结合,开发出能够增强涉及运动的任务的预训练模型,实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
Jun, 2023
本文介绍了使用文本描述生成多样的 3D 人类动作的方法,并提出了 TEMOS 框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。
Apr, 2022
基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点,本文提出了使用多角度注意机制的两阶段方法,即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制,通过生成变压器实现文本驱动的运动生成,在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术,并实现了精细合成和动作生成。
Sep, 2023