Parallel WaveGAN：基于多分辨率频谱图的生成对抗网络快速波形生成模型

Oct, 2019

Parallel WaveGAN：基于多分辨率频谱图的生成对抗网络快速波形生成模型

Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram

PDF

Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim

TL;DR本文提出了一种新型的声波生成方法，名为 Parallel WaveGAN，采用生成对抗网络作为模型，通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet，可以很好地捕捉现实语音信号的时频分布，在不需要常规师生框架中的密度蒸馏的情况下，整个模型容易训练且生成的语音高保真，适用于 Transformer-based 文本转语音框架且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。

Abstract

We propose parallel wavegan, a distillation-free, fast, and small-footprint waveform generation method using a generative adversarial network. In the proposed method, a non-autoregressive WaveNet is trained by jo

parallel wavegan generative adversarial network speech waveform spectrogram time-frequency distribution

发现论文，激发创造

ClariNet: 端到端文本到语音平行波形生成

本文提出了一种新的并行波形生成的解决方案，使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外，我们还介绍了一种全卷积的文本到波形神经架构，能够从头开始进行快速端到端培训，极大地优于以前的流程。

Jul, 2018

Parallel WaveNet: 快速高保真语音合成

采用概率密度蒸馏技术，从 WaveNet 模型中训练一个并行前向网络，实现语音样本的超过 20 倍实时生成速度，目前已部署在 Google 助手中支持多种不同英文和日语语音。

Nov, 2017

使用生成对抗网络进行概率密度蒸馏，用于高质量并行波形生成

本文提供一种基于众多方法的构思，用于波形生成模型中的概率密度蒸馏算法，以产生更加自然的语音信号。

Apr, 2019

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

FloWaveNet：用于原始音频的生成流

本文提出了 FloWaveNet，一种基于可逆流的生成模型，使用单阶段训练程序和单个最大似然损失函数，无需附加的辅助项，能实时高效地输出与先前两阶段并行模型相媲美的清晰音频

Nov, 2018

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

Multi-band MelGAN：高品质文本转语音的快速波形生成

本研究提出了一种快速的多波段 MelGAN 模型，通过增加接收域、使用多分辨率 STFT 损失和多波段处理提高声音生成的质量和稳定性。结果表明，该模型在声波生成和 TTS 方面均取得了较高的 MOS 得分。

May, 2020

基于块的自回归 GAN 用于条件波形合成

本研究提出了一种新的音频合成模型 Chunked Autoregressive GAN (CARGAN)，它能够在保持较快的生成速度的同时减少漏洞，并且利用自回归的方法来学习瞬时频率和相位之间的关系，使其在有条件的生成音频方面有更好的表现，同时适合于实时或交互式应用。

Oct, 2021