VNet：基于GAN的多层鉴别器网络用于语音合成的声码器

Aug, 2024

VNet：基于GAN的多层鉴别器网络用于语音合成的声码器

VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders

Yubing Cao, Yongming Li, Liejun Wang, Yinfeng Yu

TL;DR本研究解决了使用全频谱输入的声码器在语音合成中导致的过度平滑问题，影响了合成语音的自然性。我们提出了一种名为VNet的GAN基础神经声码器网络，采用多层鉴别器结构来提升信号的高分辨率，并通过对抗损失的渐近约束方法增强了训练过程的稳定性。实验结果表明，VNet在生成高保真语音方面表现优异，为声码器的性能提升提供了有效解决方案。

Abstract

Since the introduction of Generative Adversarial Networks (GANs) in Speech Synthesis, remarkable achievements have been attained. In a thorough exploration of vocoders, it has been discovered that audio waveforms can be generated at speeds exceeding real-time while maintaining

发现论文，激发创造

使用WaveNet声码器的多说话者文本转语音合成系统的Wasserstein GAN和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估GAN-TTS的性能。

Sep, 2019

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为VocGAN的高保真实时神经声码器，其在几乎与MelGAN相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020

HiFi-GAN: 高效高保真语音合成的生成对抗网络

该研究提出了 HiFi-GAN，一种高效且高保真度的语音合成方法，通过对声音的周期性模式进行建模，生成的音频质量接近于人类水平。

Oct, 2020

GAN Vocoder: 多分辨率判别器即可

本文通过实验证明，GAN-based vocoders的成功源于它们共同采用的multi-resolution discriminating framework，而非架构、损失函数或训练策略等方面的微小细节，多个生成器使用相同的multi-resolution discriminating framework能够实现相同效果。

Mar, 2021

BigVGAN: 大规模训练的通用神经声码器

该研究使用周期性激活函数和柿子化表示来改进基于生成对抗网络的声码器，提高音频合成质量。BigVGAN是一个通用的声码器，可以应用于各种分布情况，包括未见过的语音，语言和录制环境。

Jun, 2022

Avocado: 无伪影语音编码器的生成对抗网络

本研究提出了一种名为Avocodo的基于GAN的语音合成系统，它使用多种鉴别器来评估语音波形，并利用伪四象限镜滤波器组来避免损失波，该系统在数字和人类主观测试中均表现出较高的音质。

Jun, 2022

BigVSAN：利用切片对抗网络增强基于GAN的神经声码器

研究一种修改最小二乘GAN的方案以满足切片对抗网络（SAN）要求，通过实验验证切片对抗网络对基于GAN的合成器，包括BigVGAN的性能改进。

Sep, 2023

SpecDiff-GAN: 音频与音乐合成的频谱形状噪声扩散生成对抗网络

SpecDiff-GAN是一种基于HiFi-GAN的神经声码器，通过高斯分布注入噪声到真实和虚假样本，以提高模型的训练稳定性，并利用频谱形状的噪声分布使鉴别器任务更具挑战性，实验证明该模型在语音和音乐合成方面在音频质量和效率方面相对于其他基线模型有优势。

Jan, 2024

利用数据增强条件式鉴别器训练基于生成对抗网络的声码器模型

基于生成对抗网络（GAN）的声码器利用对抗鉴别器进行训练，因其快速、轻量和高质量的特点而被广泛用于语音合成。然而，这种数据驱动模型需要大量训练数据，导致数据收集成本高。为了解决这个问题，我们提出了一种基于增强条件鉴别器（AugCondD）的方法，该方法在评估输入语音时考虑了增强状态，从而避免限制原始非增强分布的学习。实验结果表明，AugCondD能够在有限数据条件下提高语音质量，并在充足数据条件下达到可比较的语音质量。

Mar, 2024