利用条件生成对抗网络(cGANs)从噪声语音的谱图到增强副本,将其应用于语音增强(SE)中,并以感知语音质量(PESQ)、短时客观可懂度(STOI)和说话人验证等方面进行评估。实验结果显示,cGAN 方法整体上优于传统的 STSA-MMSE SE 算法,并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。
本研究提出了一种卷积循环 GAN (CRGAN) 架构,并采用多种损失函数与其他基于 GAN 的系统进行了直接比较。结果表明,该 CRGAN 模型在同样的损失函数下优于其他基于 GAN 的模型,并且超越其他非 GAN 的系统,表明了 GAN 在语音增强方面的优势。综合评估指标,将客观度量损失函数与均方误差 (MSE) 结合的 CRGAN 模型表现最佳。