Jan, 2024

SpecDiff-GAN: 音频与音乐合成的频谱形状噪声扩散生成对抗网络

TL;DRSpecDiff-GAN 是一种基于 HiFi-GAN 的神经声码器,通过高斯分布注入噪声到真实和虚假样本,以提高模型的训练稳定性,并利用频谱形状的噪声分布使鉴别器任务更具挑战性,实验证明该模型在语音和音乐合成方面在音频质量和效率方面相对于其他基线模型有优势。