基于频谱扩散的多乐器音乐合成

Jun, 2022

Multi-instrument Music Synthesis with Spectrogram Diffusion

Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh Gardner...

TL;DR本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Abstract

An ideal music synthesizer should be both interactive and expressive, generating high-fidelity audio in realtime for arbitrary combinations of instruments and notes. Recent →

neural synthesizers midi sequences instruments dsp interactive

发现论文，激发创造

MIDI-DDSP: 通过分层建模详细控制音乐表演

本文介绍了一种多层次音乐乐器模型 MIDI-DDSP，该模型具有真实的神经音频合成和详细的用户控制能力，通过利用可解释的层次结构，提供了自下而上控制、优化、创造音乐的方式。

Dec, 2021

SpecDiff-GAN: 音频与音乐合成的频谱形状噪声扩散生成对抗网络

SpecDiff-GAN 是一种基于 HiFi-GAN 的神经声码器，通过高斯分布注入噪声到真实和虚假样本，以提高模型的训练稳定性，并利用频谱形状的噪声分布使鉴别器任务更具挑战性，实验证明该模型在语音和音乐合成方面在音频质量和效率方面相对于其他基线模型有优势。

Jan, 2024

从离散的标记到高保真音频的多频带扩散

利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Aug, 2023

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

使用 WaveNet 自编码器进行音乐音符的神经音频合成

本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型，进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集，我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高，同时演示了该模型学习嵌入的能力，实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。

Apr, 2017

情绪控制下的快速扩散生成对抗网络模型用于符号音乐生成

我们提出了将扩散模型与生成对抗网络相结合的方法，旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入，并用其来训练扩散模型，我们成功地控制了扩散模型以生成具有特定情感的符号音乐，同时大幅提升了计算效率。

Oct, 2023

灵活音色控制的神经音乐合成

本研究提出了一种基于神经网络的音乐合成模型，并使用具有灵活音色控制的嵌入学习来实现乐器的多样性和交互。

Nov, 2018

SING：符号到乐器神经生成器

本研究提出了一种基于深度学习的轻量级神经音频合成器 SING，其可以通过单一解码器从近 1000 种乐器中生成音符，并且通过新的损失函数将生成的和目标波形的对数谱距离最小化，提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比，在训练和推理方面分别快 32 倍和快 2500 倍。

Oct, 2018

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

使用音频谱图变换器进行合成器音色匹配

基于音频频谱变换器的合成器声音匹配模型可以以更高的保真度从合成器生成的样本中重建参数。

Jul, 2024