MelGAN: 生成对抗网络用于条件波形合成
研究了使用机器学习分析音乐的难点,提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN,并与基于音符的生成模型进行对比实验。
May, 2022
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
本篇论文介绍了 WaveGAN,这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
这篇论文提出了一种基于生成对抗网络的多扬声器模型,可以仅基于对抗性反馈就训练出高度多样化和高保真度的语音合成,同时可以控制和混合多种口音和语气。
Dec, 2020
我们提出了 Universal MelGAN,它是一种合成高保真语音的声码器,可以在多个领域中使用,并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题,最终生成高度逼真的语音信号。
Nov, 2020
通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术,我们的模型可以更好地生成声音相关的图像,这表明我们的模型在一定程度上真正了解声音和图像之间的关系。
Aug, 2018
本研究提出了一种新的音频合成模型 Chunked Autoregressive GAN (CARGAN),它能够在保持较快的生成速度的同时减少漏洞,并且利用自回归的方法来学习瞬时频率和相位之间的关系,使其在有条件的生成音频方面有更好的表现,同时适合于实时或交互式应用。
Oct, 2021
本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现,并通过 NSynth 数据集的大量实证研究表明,GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好,而且比自回归模型产生的音频快几个数量级。
Feb, 2019
本研究提出了一种快速的多波段 MelGAN 模型,通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明,该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。
May, 2020