TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

Apr, 2023

TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration

Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Xinxin Zuo...

TL;DR本文提出了一种用于生成 3D 舞蹈动作的创新任务，该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器，将这两个数据集的运动投影到由量化向量组成的潜在空间中，并引入 Motion Prediction Distance 和 Freezing Score 两个新指标，成功生成了健康的、连贯的舞蹈动作。

Abstract

We propose a novel task for generating 3d dance movements that simultaneously incorporate both text and music modalities. Unlike existing works that generate dance movements using a single modality such as music,

3d dance movements text and music modalities vq-vae cross-modal transformer motion prediction distance

发现论文，激发创造

TM2T: 随机和分词建模用于生成 3D 人体动作和文本的互相作用

本文探讨了从文本生成 3D 全身运动的问题，并提出了运动令牌的使用方法，结合神经机器翻译模型进行任务的处理，通过实验数据对比，表明我们的方法在这两个任务上具有优越性。

Jul, 2022

RapVerse: 从文本生成连贯的歌词与整体身体动作

通过将三维整体身体动作和唱歌声音联合生成，我们的研究工作在文本歌词输入方面取得了进展，并建立了整体人体动作和声音生成的新基准。

May, 2024

音乐驱动舞蹈生成中的多模态控制探索

我们提出了一个统一的框架，能够生成高质量的舞蹈动作并支持多模态控制，包括流派控制，语义控制和空间控制，实验证明所提出的舞蹈生成框架在动作质量和可控性方面优于现有的方法。

Jan, 2024

从舞蹈视频生成复杂音乐的量化生成对抗网络

D2M-GAN 是一个基于多模态对抗网络的音乐生成框架，能够根据舞蹈视频生成对应的流行音乐等复杂风格，使用向量量化的音频表示，通过对多个数据集的评估，证明了此方法的有效性，并提供了一个使用 TikTok 视频的数据集用于未来相关研究的起点。

Apr, 2022

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023

MIDGET: 基于音乐条件的 3D 舞蹈生成

介绍了一种名为 MIDGET 的音乐条件化 3D 舞蹈生成模型，基于舞蹈动作向量量化变分自编码器（VQ-VAE）模型和动作生成预训练（GPT）模型，以生成与音乐节奏相匹配的充满活力且高质量的舞蹈。通过引入三个新组件：1）基于 Motion VQ-VAE 模型的预训练记忆代码本，用于存储不同的人体姿势代码，2）利用 Motion GPT 模型通过音乐和动作编码器生成姿势代码，3）一个用于音乐特征提取的简单框架。通过与现有最先进模型进行比较，并在 AIST++（最大的公开音乐舞蹈数据集）上进行消融实验，实验证明我们提出的框架在运动质量和与音乐的协调性方面实现了最先进的性能。

Apr, 2024

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

DanceFormer：基于参数化运动变换器的音乐驱动 3D 舞蹈生成

本研究通过先生成关键姿势再进行中间参数运动曲线预测的两阶段过程，提出了一种新的方法 DanceFormer，通过两个级联的运动学增强变换器指导网络（称为 DanTrans）处理每个阶段，在现有数据集的训练下可以生成超过以前的研究成果的流畅、表现性和与音乐匹配的 3D 舞蹈，并且可以和工业动画软件无缝对接，可以方便地适用于各种项目。

Mar, 2021

DanceCamera3D：音乐和舞蹈的三维摄像机运动合成

通过提出多模态三维数据集 DCM 和基于 Transformer 的扩散模型 DanceCamera3D，综合定量和定性证据显示了 DanceCamera3D 模型的有效性，以解决舞蹈摄像机运动与音乐和舞蹈的综合问题。

Mar, 2024

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在 HumanML3D 和 KIT-ML 数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023