灵活音色控制的神经音乐合成
本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型,进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集,我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高,同时演示了该模型学习嵌入的能力,实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。
Apr, 2017
利用基于 WaveNet 架构的新型合成模型,对参数声码器产生的特征进行建模,并使用混合密度输出,实现对每个帧的预测,避免了过度拟合,在预测错误的情况下进行自回归生成算法的正则化,成功将和声、非周期性和有声 / 无声组件预测在一起,比现有的参数化统计方法和拼接方法更为有效。
Apr, 2017
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
本文介绍了神经波形塑形单元 (NEWT) 及其优化方法 FastNEWT,结合可微分噪声合成器和混响可生成实际乐器演奏的复杂音色演变。我们的方法性能表现相比其他同类型算法更快,因此可以作为未来创意音效设计工具的可行基础。
Jul, 2021
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显著的优势。
Jun, 2022
本研究提出了一种基于深度学习的轻量级神经音频合成器 SING,其可以通过单一解码器从近 1000 种乐器中生成音符,并且通过新的损失函数将生成的和目标波形的对数谱距离最小化,提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比,在训练和推理方面分别快 32 倍和快 2500 倍。
Oct, 2018
本文提出了一种将深度学习中的原始音频模型和符号模型相结合的音乐自动生成方法,使用 LSTM 网络学习音乐的旋律结构,再将符号生成作为 WaveNet 原始音频生成器的条件输入,从而生成出有结构且听起来逼真的音乐。
Jun, 2018
利用神经架构搜索技术 (NAS),本研究提出了一种不同 iable frequency modulation (FM) 合成器,该合成器可自动地从声音中发展出可以调的合成器,并且可以实现更好的效果比手工合成器。
May, 2023
Neural Wavetable 是一款利用神经网络生成可演奏波表的合成器,可通过自动编码器中的潜在空间对传统波表进行插值产生新的、独特的波形。
Nov, 2018