使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

Jul, 2018

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

Wasserstein GAN and Waveform Loss-based Acoustic Model Training for Multi-speaker Text-to-Speech Synthesis Systems Using a WaveNet Vocoder

PDF

Yi Zhao, Shinji Takaki, Hieu-Thi Luong, Junichi Yamagishi, Daisuke Saito...

TL;DR提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Abstract

Recent neural networks such as WaveNet and sampleRNN that learn directly from speech waveform samples have achieved very high-quality synthetic speech in terms of both naturalness and speaker similarity even in multi-speaker text-to-speech synthesis systems. Such neural networks are be

neural vocoders speech synthesis conditional generative adversarial network wasserstein gan discretized mixture logistic loss

发现论文，激发创造

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

面向声带激励的无需说话人信息的原始波形模型

本文提出一种基于 WaveNet 的声码器 GlotNet，通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器，实现跨多个说话人共享波形发生器模型，而且多测试显示该模型表现优于直接的 WaveNet 声码器。

Apr, 2018

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

本研究提出了一种基于深度神经网络的歌声合成器，使用 Wasserstein-GAN 算法进行优化，通过声学建模的声码器参数，实现对歌唱声音中音高和音色的分离，采用分块方法建模输入块内的时间依赖关系，并使用重叠添加程序将连续块拼接在一起，该模型的绩效达到了与最先进技术相竞争的水平。

Mar, 2019

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

Parallel WaveGAN：基于多分辨率频谱图的生成对抗网络快速波形生成模型

本文提出了一种新型的声波生成方法，名为 Parallel WaveGAN，采用生成对抗网络作为模型，通过优化多分辨率的频谱图和对抗损失函数来训练非自回归 WaveNet，可以很好地捕捉现实语音信号的时频分布，在不需要常规师生框架中的密度蒸馏的情况下，整个模型容易训练且生成的语音高保真，适用于 Transformer-based 文本转语音框架且与最佳的基于蒸馏的 Parallel WaveNet 系统相媲美。

Oct, 2019