cMelGAN：基于 Mel 频谱的高效条件生成模型

May, 2022

cMelGAN：基于 Mel 频谱的高效条件生成模型

cMelGAN: An Efficient Conditional Generative Model Based on Mel Spectrograms

Tracy Qian, Jackson Kaunismaa, Tony Chung

TL;DR研究了使用机器学习分析音乐的难点，提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN，并与基于音符的生成模型进行对比实验。

Abstract

Analysing music in the field of machine learning is a very difficult problem with numerous constraints to consider. The nature of audio data, with its very high dimensionality and widely varying scales of structu

music machine learning generative model mel spectrograms convolutional architecture

发现论文，激发创造

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

基于 SeqGAN 的旋律条件歌词生成

本文提出了一种基于序列生成对抗网络（SeqGAN）的端到端旋律条件歌词生成系统，可以根据输入的旋律生成一行歌词，并对生成的主题或总体主题进行了探究，并证明输入条件不会对评估度量产生负面影响，同时可以产生更有意义的结果。

Oct, 2020

MelNet: 频域音频生成模型

利用二维时频表示，概率模型和多尺度生成，设计了一个能够捕捉高时间尺度结构的模型，可以在各种音频生成任务中达到比以往更好的效果。

Jun, 2019

StyleMelGAN：一种高效高保真的对抗性合成声码器，具有时态自适应归一化

提出 StyleMelGAN 算法，实现高保真度语音合成，并解决了低计算复杂度的问题。

Nov, 2020

基于块的自回归 GAN 用于条件波形合成

本研究提出了一种新的音频合成模型 Chunked Autoregressive GAN (CARGAN)，它能够在保持较快的生成速度的同时减少漏洞，并且利用自回归的方法来学习瞬时频率和相位之间的关系，使其在有条件的生成音频方面有更好的表现，同时适合于实时或交互式应用。

Oct, 2021

通用 MelGAN: 多领域高保真波形生成的强力神经声码器

我们提出了 Universal MelGAN，它是一种合成高保真语音的声码器，可以在多个领域中使用，并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题，最终生成高度逼真的语音信号。

Nov, 2020

互动背景下的音乐生成调查

近年来，机器学习，特别是生成对抗神经网络（GANs）和基于注意力的神经网络（transformers），已成功用于作曲和生成音乐，包括旋律和多声部作品。然而，现有研究主要集中在风格复制和转换的问题上，并未涉及到人机共同创作和评估。本文综述了音乐表征、特征分析、启发式算法、统计和参数建模，人类和自动化评估措施，并讨论了哪种方法和模型最适合于实时互动。

Feb, 2024

音乐类型分类：使用 Mel 频率倒谱系数和 Mel 频谱图的 CNN 和 XGBoost 方法的比较分析

研究通过比较研究了卷积神经网络（CNN）、VGG16 和 eXtreme Gradient Boosting（XGBoost）三种模型在不同特征上的表现，30 秒的梅尔频谱图和 3 秒的梅尔频率倒谱系数（MFCCs），结果表明 MFCC XGBoost 模型胜出，此外，在数据预处理阶段应用数据分割可以显著提升 CNN 的性能。

Jan, 2024

简单且可控的音乐生成

本文介绍了 MusicGen 这个单一语言模型，能够生成高质量的音乐样本，实现对文本描述或旋律特征的有条件创作，并经过广泛的实证评估，表明其在标准的文本到音乐基准上优于其他模型。

Jun, 2023

音乐的深度学习

本研究尝试使用深度神经网络建立生成模型，以生成既有和声和旋律，并且足以通过人类作曲的音乐，并利用端到端学习和生成的方法。

Jun, 2016