MidiNet:一种用于符号域音乐生成的卷积生成对抗网络
本文提出了三个基于生成对抗网络的符号化多轨音乐生成模型,并通过客观和主观的评估方法证明了这些模型的有效性。此外,该文还介绍了一些评估生成结果的标准,并通过与人类协作音乐生成的实验进行探讨。
Sep, 2017
本文提出了一种基于序列生成对抗网络的应用方法 (SeqGAN),用于创建和捕获音符和和弦的多声部音乐序列的表征,同时利用神经网络从该嵌入式音乐词空间的模拟分布中学习预测序列的分布,实验表明该方法可以稳定地训练 GAN 并创造出具有音乐连贯性且在定量和定性方面均有所提升的音乐序列。
Oct, 2017
本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法,并比较了 LSTM(一种 RNN)和 WaveNet(扩张时间 - CNN)两种序列生成模型,结果显示使用扩张卷积层更显式地编码结构可以显著提高性能,而将基础和弦进行全局编码则更有提升效果。
Nov, 2018
提出了一个深度卷积模型,学习了乐谱和音频之间的符号表示之间的得分与音频之间的映射,通过用户研究发现,该模型在自然度和情感表现方面的平均意见分数高于 WaveNet 模型和两个商业声音库。
Nov, 2018
本文提出了一个基于 RNN 的层次化多模态融合生成变分自编码器(VAE)网络 MIDI-Sandwich2,用于多轨符号音乐生成,并使用多模式融合技术实现 RNN-based 多轨符号音乐生成。与 MuseGAN 相比,MIDI-Sandwich2 不仅能生成和谐的多轨音乐,而且生成的质量也接近于艺术水平。
Sep, 2019
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显著的优势。
Jun, 2022
本文介绍了一种分层递归神经网络用于创作旋律的方法,该方法通过多个 LSTM 子网络从粗到细逐层生成小节结构、节奏结构和音符,通过两个人类行为实验证明了这种结构相对于单层 LSTM 和现有的 MIdiNet 和 MusicVAE 模型更适合创作旋律。
Dec, 2017
本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型,进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集,我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高,同时演示了该模型学习嵌入的能力,实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。
Apr, 2017