用于语音增强和抗噪声说话人验证的条件生成对抗网络

Sep, 2017

用于语音增强和抗噪声说话人验证的条件生成对抗网络

Conditional Generative Adversarial Networks for Speech Enhancement and Noise-Robust Speaker Verification

Daniel Michelsanti, Zheng-Hua Tan

TL;DR利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Abstract

Improving speech system performance in noisy environments remains a challenging task, and speech enhancement (SE) is one of the effective techniques to solve the problem. Motivated by the promising results of generative

speech enhancement generative adversarial networks spectrogram perceptual evaluation of speech quality short-time objective intelligibility

发现论文，激发创造

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

使用生成对抗网络探索语音增强以实现鲁棒的语音识别

本文研究生成对抗网络（Generative Adversarial Networks, GANs）在语音增强领域中的有效性，通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号，并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练（Multi-style Training, MTR）系统的 7％错误率改进。

Nov, 2017

使用循环一致生成对抗网络的两阶段复杂网络进行语音增强

本文提出了一种基于两个阶段的去噪系统，该系统通过将 CycleGAN 模型的估计强度与原始嘈杂的相位相结合来获得粗略增强的复杂光谱，并利用复杂光谱映射网络进一步抑制噪声成分和估计干净相位。实验结果表明，该方法在各种评估指标方面始终优于之前的单阶段 CycleGAN 和其他最先进的 SE 系统，尤其是在背景噪声抑制方面

Sep, 2021

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

CMGAN：基于 Conformer 的度量 GAN 语音增强

本文提出了一种基于 Conformer 的度量生成对抗网络（CMGAN），用于在时频域中进行语音增强，定量分析表明，CMGAN 能够比以前的模型更好地提高性能。

Mar, 2022

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

鲁棒性条件生成对抗网络

该研究介绍了一种名为 RoCGAN 的新型条件 GAN 模型，该模型在图像生成的任务中表现优异，并在面临严重噪声的情况下使生成器输出的图像更接近目标空间，实验结果表明，RoCGAN 在各种领域的表现都远优于现有的最先进的 cGAN 架构。

May, 2018

GAN 语音增强系统的损失函数与循环训练

本研究提出了一种卷积循环 GAN (CRGAN) 架构，并采用多种损失函数与其他基于 GAN 的系统进行了直接比较。结果表明，该 CRGAN 模型在同样的损失函数下优于其他基于 GAN 的模型，并且超越其他非 GAN 的系统，表明了 GAN 在语音增强方面的优势。综合评估指标，将客观度量损失函数与均方误差 (MSE) 结合的 CRGAN 模型表现最佳。

Jul, 2020