MAGMA:音乐对齐生成动作自解码器
介绍了一种名为 MIDGET 的音乐条件化 3D 舞蹈生成模型,基于舞蹈动作向量量化变分自编码器(VQ-VAE)模型和动作生成预训练(GPT)模型,以生成与音乐节奏相匹配的充满活力且高质量的舞蹈。通过引入三个新组件:1)基于 Motion VQ-VAE 模型的预训练记忆代码本,用于存储不同的人体姿势代码,2)利用 Motion GPT 模型通过音乐和动作编码器生成姿势代码,3)一个用于音乐特征提取的简单框架。通过与现有最先进模型进行比较,并在 AIST++(最大的公开音乐舞蹈数据集)上进行消融实验,实验证明我们提出的框架在运动质量和与音乐的协调性方面实现了最先进的性能。
Apr, 2024
D2M-GAN 是一个基于多模态对抗网络的音乐生成框架,能够根据舞蹈视频生成对应的流行音乐等复杂风格,使用向量量化的音频表示,通过对多个数据集的评估,证明了此方法的有效性,并提供了一个使用 TikTok 视频的数据集用于未来相关研究的起点。
Apr, 2022
通过使用自回归编码解码网络设计了一种音乐驱动舞蹈编排生成系统,该网络利用音乐和对应的舞蹈运动,运用多媒体片段进行训练,能够在只有音乐输入的情况下生成新的舞蹈运动。经过用户研究,结果表明该方法可以生成富有音乐感和自然的新舞蹈动作。
Nov, 2018
本文提出了一种用于生成 3D 舞蹈动作的创新任务,该任务同时加入了文本和音乐模态。本文通过使用基于 3D 人类运动 VQ-VAE 的交叉模态变压器,将这两个数据集的运动投影到由量化向量组成的潜在空间中,并引入 Motion Prediction Distance 和 Freezing Score 两个新指标,成功生成了健康的、连贯的舞蹈动作。
Apr, 2023
通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分,结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器,从而更加真实和多样的生成语音到动作的映射。
Aug, 2021
Musika 是一個快速的音樂生成系統,透過將 spectrogram 轉換成可逆表示並透過生成對抗網路以一個特定的音樂領域進行訓練,使用單一普通消費 GPU 進行訓練並能在消費 CPU 上以比實時更快的速度生成任意長度的音樂,並提供使用者控制選項。
Aug, 2022
本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架,并表明了通过常用的训练配方(EMA 和 Code Reset),我们可以获得高质量的离散表示。此外,我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差,并在 HumanML3D 数据集上表现出比竞争方法更好的性能。
Jan, 2023
本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成,以及改进行为识别和降噪等两种应用。
Apr, 2021
本文提出了一种新颖的动作序列生成方法 MT-VAE,它可以利用动作序列之间的转换关系,学习运动方式的特征嵌入和运动方式之间的特征变换,从而生成多样性且逼真的面部和全身运动,并展示了与类比运动传递和视频合成相关的应用。
Aug, 2018
本文提出一种使用 Transformer 模型在音频领域生成鼓声的方法,通过使用含有鼓声和不含鼓声的音轨进行训练,使用 VQ-VAE 进行音频编码,使用 Mel-spectrogram 进行鼓声编码,并且使用与输入音频相关的节拍特征,从而演奏出与输入音频节奏风格一致的鼓声。
Oct, 2022