基于频谱扩散的多乐器音乐合成
本文介绍了一种多层次音乐乐器模型 MIDI-DDSP,该模型具有真实的神经音频合成和详细的用户控制能力,通过利用可解释的层次结构,提供了自下而上控制、优化、创造音乐的方式。
Dec, 2021
SpecDiff-GAN 是一种基于 HiFi-GAN 的神经声码器,通过高斯分布注入噪声到真实和虚假样本,以提高模型的训练稳定性,并利用频谱形状的噪声分布使鉴别器任务更具挑战性,实验证明该模型在语音和音乐合成方面在音频质量和效率方面相对于其他基线模型有优势。
Jan, 2024
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型,进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集,我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高,同时演示了该模型学习嵌入的能力,实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。
Apr, 2017
我们提出了将扩散模型与生成对抗网络相结合的方法,旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入,并用其来训练扩散模型,我们成功地控制了扩散模型以生成具有特定情感的符号音乐,同时大幅提升了计算效率。
Oct, 2023
本研究提出了一种基于深度学习的轻量级神经音频合成器 SING,其可以通过单一解码器从近 1000 种乐器中生成音符,并且通过新的损失函数将生成的和目标波形的对数谱距离最小化,提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比,在训练和推理方面分别快 32 倍和快 2500 倍。
Oct, 2018
本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。
Jan, 2022
提出了一个深度卷积模型,学习了乐谱和音频之间的符号表示之间的得分与音频之间的映射,通过用户研究发现,该模型在自然度和情感表现方面的平均意见分数高于 WaveNet 模型和两个商业声音库。
Nov, 2018