MIDGET: 基于音乐条件的 3D 舞蹈生成

Apr, 2024

MIDGET: 基于音乐条件的 3D 舞蹈生成

MIDGET: Music Conditioned 3D Dance Generation

Jinwu Wang, Wei Mao, Miaomiao Liu

TL;DR介绍了一种名为 MIDGET 的音乐条件化 3D 舞蹈生成模型，基于舞蹈动作向量量化变分自编码器（VQ-VAE）模型和动作生成预训练（GPT）模型，以生成与音乐节奏相匹配的充满活力且高质量的舞蹈。通过引入三个新组件：1）基于 Motion VQ-VAE 模型的预训练记忆代码本，用于存储不同的人体姿势代码，2）利用 Motion GPT 模型通过音乐和动作编码器生成姿势代码，3）一个用于音乐特征提取的简单框架。通过与现有最先进模型进行比较，并在 AIST++（最大的公开音乐舞蹈数据集）上进行消融实验，实验证明我们提出的框架在运动质量和与音乐的协调性方面实现了最先进的性能。

Abstract

In this paper, we introduce a music conditioned 3d dance generation model, named midget based on Dance motion Vector Quantised Variational

3d dance generation midget music conditioned motion vq-vae model motion gpt model

发现论文，激发创造

MAGMA：音乐对齐生成动作自解码器

使用 VQ-VAE 提炼运动原语并使用 Transformer 解码器进行正确的排序，实现了音乐转动作的实时生成和无缝链接，同时易于定制满足风格需求的动作序列。

Sep, 2023

Bailando: 用演员 - 评论家 GPT 和编舞记忆生成 3D 舞蹈

提出了一种名为 Bailando 的用于将音乐转换为舞蹈的新型框架，它使用了两个强大的组件：学习从 3D 姿势序列总结有意义的舞蹈单元的编舞记忆，并使用基于演员 - 评论家的生成预训练变压器 (GPT) 将这些单元组合成与音乐一致的流畅舞蹈，通过使用这个音乐转换为舞蹈的框架，已经达到了最先进的性能水平，并发现了人类可解释的舞蹈风格姿势。

Mar, 2022

TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

本文提出了一种用于生成 3D 舞蹈动作的创新任务，该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器，将这两个数据集的运动投影到由量化向量组成的潜在空间中，并引入 Motion Prediction Distance 和 Freezing Score 两个新指标，成功生成了健康的、连贯的舞蹈动作。

Apr, 2023

从舞蹈视频生成复杂音乐的量化生成对抗网络

D2M-GAN 是一个基于多模态对抗网络的音乐生成框架，能够根据舞蹈视频生成对应的流行音乐等复杂风格，使用向量量化的音频表示，通过对多个数据集的评估，证明了此方法的有效性，并提供了一个使用 TikTok 视频的数据集用于未来相关研究的起点。

Apr, 2022

DanceFormer：基于参数化运动变换器的音乐驱动 3D 舞蹈生成

本研究通过先生成关键姿势再进行中间参数运动曲线预测的两阶段过程，提出了一种新的方法 DanceFormer，通过两个级联的运动学增强变换器指导网络（称为 DanTrans）处理每个阶段，在现有数据集的训练下可以生成超过以前的研究成果的流畅、表现性和与音乐匹配的 3D 舞蹈，并且可以和工业动画软件无缝对接，可以方便地适用于各种项目。

Mar, 2021

AI 编舞家：基于 AIST++ 的音乐驱动 3D 舞蹈生成

使用 AIST++ 数据集和 FACT 网络，我们展示了可以产生逼真，与输入音乐很好匹配的 3D 舞蹈动作的方法。

Jan, 2021

Music2Dance：音乐驱动的舞蹈生成 DanceNet

该论文提出了一种基于自回归生成模型的新方法 DanceNet，以音乐的风格、节奏和旋律为控制信号生成具有高度真实感和多样性的 3D 舞蹈动作，并通过专业舞者捕捉了多组同步的音乐舞蹈配对数据集以提高模型性能，实验结果表明所提出的方法达到了最先进的效果。

Feb, 2020

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

音乐驱动的编舞生成：使用自回归编码器 - 解码器网络

通过使用自回归编码解码网络设计了一种音乐驱动舞蹈编排生成系统，该网络利用音乐和对应的舞蹈运动，运用多媒体片段进行训练，能够在只有音乐输入的情况下生成新的舞蹈运动。经过用户研究，结果表明该方法可以生成富有音乐感和自然的新舞蹈动作。

Nov, 2018

基于 Transformer VAE 的带动作条件的 3D 人类动作合成

本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成，以及改进行为识别和降噪等两种应用。

Apr, 2021