MidiNet：一种用于符号域音乐生成的卷积生成对抗网络

Mar, 2017

MidiNet：一种用于符号域音乐生成的卷积生成对抗网络

MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation

Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang

TL;DR本文提出一种基于卷积神经网络的生成式对抗网络 MidiNet，用于在符号域中生成旋律，其能够通过先前的和弦序列或前几小节的旋律生成新的旋律，相比 MelodyRNN 模型表现更为出色。

Abstract

Most existing neural network models for music generation use recurrent neural networks. However, the recent WaveNet model proposed by DeepMind shows that convolutional →

neural networks music generation convolutional generative adversarial network midinet

发现论文，激发创造

MuseGAN: 多轨序列生成对抗网络用于符号音乐生成和伴奏

本文提出了三个基于生成对抗网络的符号化多轨音乐生成模型，并通过客观和主观的评估方法证明了这些模型的有效性。此外，该文还介绍了一些评估生成结果的标准，并通过与人类协作音乐生成的实验进行探讨。

Sep, 2017

序列生成对抗网络生成多声部音乐

本文提出了一种基于序列生成对抗网络的应用方法 (SeqGAN)，用于创建和捕获音符和和弦的多声部音乐序列的表征，同时利用神经网络从该嵌入式音乐词空间的模拟分布中学习预测序列的分布，实验表明该方法可以稳定地训练 GAN 并创造出具有音乐连贯性且在定量和定性方面均有所提升的音乐序列。

Oct, 2017

深度神经网络明确结构编码对符号音乐生成的影响

本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法，并比较了 LSTM（一种 RNN）和 WaveNet（扩张时间 - CNN）两种序列生成模型，结果显示使用扩张卷积层更显式地编码结构可以显著提高性能，而将基础和弦进行全局编码则更有提升效果。

Nov, 2018

PerformanceNet: 多频段卷积残差网络得分转音频音乐生成

提出了一个深度卷积模型，学习了乐谱和音频之间的符号表示之间的得分与音频之间的映射，通过用户研究发现，该模型在自然度和情感表现方面的平均意见分数高于 WaveNet 模型和两个商业声音库。

Nov, 2018

基于 RNN 的层次化多模态融合生成 VAE 网络用于多轨符号音乐生成

本文提出了一个基于 RNN 的层次化多模态融合生成变分自编码器（VAE）网络 MIDI-Sandwich2，用于多轨符号音乐生成，并使用多模式融合技术实现 RNN-based 多轨符号音乐生成。与 MuseGAN 相比，MIDI-Sandwich2 不仅能生成和谐的多轨音乐，而且生成的质量也接近于艺术水平。

Sep, 2019

音乐的深度学习

本研究尝试使用深度神经网络建立生成模型，以生成既有和声和旋律，并且足以通过人类作曲的音乐，并利用端到端学习和生成的方法。

Jun, 2016

基于频谱扩散的多乐器音乐合成

本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Jun, 2022

用于符号旋律生成的分层循环神经网络

本文介绍了一种分层递归神经网络用于创作旋律的方法，该方法通过多个 LSTM 子网络从粗到细逐层生成小节结构、节奏结构和音符，通过两个人类行为实验证明了这种结构相对于单层 LSTM 和现有的 MIdiNet 和 MusicVAE 模型更适合创作旋律。

Dec, 2017

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

使用 WaveNet 自编码器进行音乐音符的神经音频合成

本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型，进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集，我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高，同时演示了该模型学习嵌入的能力，实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。

Apr, 2017