MelGAN: 生成对抗网络用于条件波形合成

Oct, 2019

MelGAN: 生成对抗网络用于条件波形合成

MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

Kundan Kumar, Rithesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh...

TL;DR该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Abstract

Previous works (Donahue et al., 2018a; Engel et al., 2019a) have found that generating coherent raw audio waveforms with gans is challenging. In this paper, we show that it is possible to train →

gans audio waveform coherent mel-spectrogram inversion speech synthesis

发现论文，激发创造

cMelGAN：基于 Mel 频谱的高效条件生成模型

研究了使用机器学习分析音乐的难点，提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN，并与基于音符的生成模型进行对比实验。

May, 2022

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

Multi-SpectroGAN：基于对抗式风格组合的高多样性高保真谱图生成技术，用于语音合成

这篇论文提出了一种基于生成对抗网络的多扬声器模型，可以仅基于对抗性反馈就训练出高度多样化和高保真度的语音合成，同时可以控制和混合多种口音和语气。

Dec, 2020

通用 MelGAN: 多领域高保真波形生成的强力神经声码器

我们提出了 Universal MelGAN，它是一种合成高保真语音的声码器，可以在多个领域中使用，并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题，最终生成高度逼真的语音信号。

Nov, 2020

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Aug, 2018

基于块的自回归 GAN 用于条件波形合成

本研究提出了一种新的音频合成模型 Chunked Autoregressive GAN (CARGAN)，它能够在保持较快的生成速度的同时减少漏洞，并且利用自回归的方法来学习瞬时频率和相位之间的关系，使其在有条件的生成音频方面有更好的表现，同时适合于实时或交互式应用。

Oct, 2021

HiFi-GAN: 高效高保真语音合成的生成对抗网络

该研究提出了 HiFi-GAN，一种高效且高保真度的语音合成方法，通过对声音的周期性模式进行建模，生成的音频质量接近于人类水平。

Oct, 2020

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

Multi-band MelGAN：高品质文本转语音的快速波形生成

本研究提出了一种快速的多波段 MelGAN 模型，通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明，该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。

May, 2020