Aug, 2024

VNet:基于GAN的多层鉴别器网络用于语音合成的声码器

TL;DR本研究解决了使用全频谱输入的声码器在语音合成中导致的过度平滑问题,影响了合成语音的自然性。我们提出了一种名为VNet的GAN基础神经声码器网络,采用多层鉴别器结构来提升信号的高分辨率,并通过对抗损失的渐近约束方法增强了训练过程的稳定性。实验结果表明,VNet在生成高保真语音方面表现优异,为声码器的性能提升提供了有效解决方案。