ICCVAug, 2023

优先级中心的离散潜空间人体运动生成

TL;DR文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型,它采用了一种创新的噪声调度方式,根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作,从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术,尤其对于复杂的文本描述。