该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧,并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。
Oct, 2019
本文提出了一种基于序列生成对抗网络(SeqGAN)的端到端旋律条件歌词生成系统,可以根据输入的旋律生成一行歌词,并对生成的主题或总体主题进行了探究,并证明输入条件不会对评估度量产生负面影响,同时可以产生更有意义的结果。
Oct, 2020
利用二维时频表示,概率模型和多尺度生成,设计了一个能够捕捉高时间尺度结构的模型,可以在各种音频生成任务中达到比以往更好的效果。
Jun, 2019
提出 StyleMelGAN 算法,实现高保真度语音合成,并解决了低计算复杂度的问题。
Nov, 2020
本研究提出了一种新的音频合成模型 Chunked Autoregressive GAN (CARGAN),它能够在保持较快的生成速度的同时减少漏洞,并且利用自回归的方法来学习瞬时频率和相位之间的关系,使其在有条件的生成音频方面有更好的表现,同时适合于实时或交互式应用。
Oct, 2021
我们提出了 Universal MelGAN,它是一种合成高保真语音的声码器,可以在多个领域中使用,并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题,最终生成高度逼真的语音信号。
近年来,机器学习,特别是生成对抗神经网络(GANs)和基于注意力的神经网络(transformers),已成功用于作曲和生成音乐,包括旋律和多声部作品。然而,现有研究主要集中在风格复制和转换的问题上,并未涉及到人机共同创作和评估。本文综述了音乐表征、特征分析、启发式算法、统计和参数建模,人类和自动化评估措施,并讨论了哪种方法和模型最适合于实时互动。
Feb, 2024
研究通过比较研究了卷积神经网络(CNN)、VGG16 和 eXtreme Gradient Boosting(XGBoost)三种模型在不同特征上的表现,30 秒的梅尔频谱图和 3 秒的梅尔频率倒谱系数(MFCCs),结果表明 MFCC XGBoost 模型胜出,此外,在数据预处理阶段应用数据分割可以显著提升 CNN 的性能。
Jan, 2024
本文介绍了 MusicGen 这个单一语言模型,能够生成高质量的音乐样本,实现对文本描述或旋律特征的有条件创作,并经过广泛的实证评估,表明其在标准的文本到音乐基准上优于其他模型。
Jun, 2023
本研究尝试使用深度神经网络建立生成模型,以生成既有和声和旋律,并且足以通过人类作曲的音乐,并利用端到端学习和生成的方法。
Jun, 2016