Dec, 2023
T2M-HiFiGPT: 从文本描述中生成高质量的人体运动,使用离散残差表示
T2M-HiFiGPT: Generating High Quality Human Motion from Textual
Descriptions with Residual Discrete Representations
TL;DR我们介绍了T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于RVQ-VAE和双层GPT结构。我们的研究表明,我们基于CNN的RVQ-VAE能够产生高精度的2D时间-残差离散动作表示。我们的双层GPT结构包括了时间GPT和残差GPT,能够有效地将先前帧和文本描述的信息压缩成1D上下文向量,并通过RVQ-VAE解码器将生成的残差离散指标转化回动作数据。我们的框架在HumanML3D和KIT-ML数据集上表现出色,在几乎所有主要指标上产生了异常的结果。通过对HumanML3D数据集进行全面的剔除研究,我们进一步验证了我们框架的有效性,并考察了每个组件的贡献。我们的发现表明,相比VQ-VAE类型的模型,RVQ-VAE不仅更擅长捕捉精确的3D人体动作,而且计算需求相当。因此,T2M-HiFiGPT能够以显著提高的准确性生成人体动作,优于最新的基于扩散和GPT的方法,如T2M-GPT和Att-T2M。