May, 2024

基于关键帧并行跳跃变换的文本引导下的三维人体动作生成

TL;DR提出了一种名为 KeyMotion 的方法,通过生成关键帧并进行填充,实现根据输入文本生成逼真的人体运动序列。通过使用具有 Kullback-Leibler 正则化的变分自编码器(VAE)将关键帧投影到潜空间,来减少维度和加速扩散过程。同时,引入了一种新的并行跳过注意力机制的 Transformer,用于实现关键帧潜向量和文本条件之间的跨模态注意力。通过引入文本引导的 Transformer 进行动作填充,确保运动序列的保真度和遵循人体运动的物理约束。实验证明,该方法在 HumanML3D 数据集上达到了最先进的结果,所有 R-Precision 度量和多模态距离指标均优于其他方法。同时,在 KIT 数据集上也获得了有竞争力的性能,在 Top3 R-Precision、FID 和多样性度量指标上取得了最佳结果。