Apr, 2023

TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

TL;DR本文提出了一种用于生成 3D 舞蹈动作的创新任务,该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器,将这两个数据集的运动投影到由量化向量组成的潜在空间中,并引入 Motion Prediction Distance 和 Freezing Score 两个新指标,成功生成了健康的、连贯的舞蹈动作。