MAGMA：音乐对齐生成动作自解码器

Sep, 2023

MAGMA：音乐对齐生成动作自解码器

MAGMA: Music Aligned Generative Motion Autodecoder

Sohan Anisetty, Amit Raj, James Hays

TL;DR使用 VQ-VAE 提炼运动原语并使用 Transformer 解码器进行正确的排序，实现了音乐转动作的实时生成和无缝链接，同时易于定制满足风格需求的动作序列。

Abstract

mapping music to dance is a challenging problem that requires spatial and temporal coherence along with a continual synchronization with the music's progression. Taking inspiration from large language models, we introduce a 2-step approach for generating dance using a Vector Quantized-

mapping music to dance vector quantized-variational autoencoder motion primitives music representations motion generation

发现论文，激发创造

MIDGET: 基于音乐条件的 3D 舞蹈生成

介绍了一种名为 MIDGET 的音乐条件化 3D 舞蹈生成模型，基于舞蹈动作向量量化变分自编码器（VQ-VAE）模型和动作生成预训练（GPT）模型，以生成与音乐节奏相匹配的充满活力且高质量的舞蹈。通过引入三个新组件：1）基于 Motion VQ-VAE 模型的预训练记忆代码本，用于存储不同的人体姿势代码，2）利用 Motion GPT 模型通过音乐和动作编码器生成姿势代码，3）一个用于音乐特征提取的简单框架。通过与现有最先进模型进行比较，并在 AIST++（最大的公开音乐舞蹈数据集）上进行消融实验，实验证明我们提出的框架在运动质量和与音乐的协调性方面实现了最先进的性能。

Apr, 2024

从舞蹈视频生成复杂音乐的量化生成对抗网络

D2M-GAN 是一个基于多模态对抗网络的音乐生成框架，能够根据舞蹈视频生成对应的流行音乐等复杂风格，使用向量量化的音频表示，通过对多个数据集的评估，证明了此方法的有效性，并提供了一个使用 TikTok 视频的数据集用于未来相关研究的起点。

Apr, 2022

音乐驱动的编舞生成：使用自回归编码器 - 解码器网络

通过使用自回归编码解码网络设计了一种音乐驱动舞蹈编排生成系统，该网络利用音乐和对应的舞蹈运动，运用多媒体片段进行训练，能够在只有音乐输入的情况下生成新的舞蹈运动。经过用户研究，结果表明该方法可以生成富有音乐感和自然的新舞蹈动作。

Nov, 2018

TM2D: 基于双模态驱动的音乐文本融合三维舞蹈生成

本文提出了一种用于生成 3D 舞蹈动作的创新任务，该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器，将这两个数据集的运动投影到由量化向量组成的潜在空间中，并引入 Motion Prediction Distance 和 Freezing Score 两个新指标，成功生成了健康的、连贯的舞蹈动作。

Apr, 2023

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021

Musika! 快速无限波形音乐生成

Musika 是一個快速的音樂生成系統，透過將 spectrogram 轉換成可逆表示並透過生成對抗網路以一個特定的音樂領域進行訓練，使用單一普通消費 GPU 進行訓練並能在消費 CPU 上以比實時更快的速度生成任意長度的音樂，並提供使用者控制選項。

Aug, 2022

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

基于 Transformer VAE 的带动作条件的 3D 人类动作合成

本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成，以及改进行为识别和降噪等两种应用。

Apr, 2021

MT-VAE: 学习运动变换以生成多模式人体动力学

本文提出了一种新颖的动作序列生成方法 MT-VAE，它可以利用动作序列之间的转换关系，学习运动方式的特征嵌入和运动方式之间的特征变换，从而生成多样性且逼真的面部和全身运动，并展示了与类比运动传递和视频合成相关的应用。

Aug, 2018

JukeDrummer：基于 Transformer VQ-VAE 的有条件节拍感知音频域鼓伴奏生成

本文提出一种使用 Transformer 模型在音频领域生成鼓声的方法，通过使用含有鼓声和不含鼓声的音轨进行训练，使用 VQ-VAE 进行音频编码，使用 Mel-spectrogram 进行鼓声编码，并且使用与输入音频相关的节拍特征，从而演奏出与输入音频节奏风格一致的鼓声。

Oct, 2022