CMGAN：基于 Conformer 的度量 GAN 语音增强

Mar, 2022

CMGAN：基于 Conformer 的度量 GAN 语音增强

CMGAN: Conformer-based Metric GAN for Speech Enhancement

Ruizhe Cao, Sherif Abdulatif, Bin Yang

TL;DR本文提出了一种基于 Conformer 的度量生成对抗网络（CMGAN），用于在时频域中进行语音增强，定量分析表明，CMGAN 能够比以前的模型更好地提高性能。

Abstract

Recently, convolution-augmented transformer (conformer) has achieved promising performance in automatic speech recognition (ASR) and time-domain

convolution-augmented transformer conformer metric generative adversarial network time-frequency domain speech enhancement

发现论文，激发创造

CMGAN：基于 Conformer 的度量 GAN 用于单声道语音增强

本文提出了基于 Conformers 的度量生成对抗网络（CMGAN）用于时频域中的语音增强，并且在消除噪声、去混响和超分辨率等三个语音增强任务上取得了优越的性能。

Sep, 2022

用于语音增强和抗噪声说话人验证的条件生成对抗网络

利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Sep, 2017

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

使用循环一致生成对抗网络的两阶段复杂网络进行语音增强

本文提出了一种基于两个阶段的去噪系统，该系统通过将 CycleGAN 模型的估计强度与原始嘈杂的相位相结合来获得粗略增强的复杂光谱，并利用复杂光谱映射网络进一步抑制噪声成分和估计干净相位。实验结果表明，该方法在各种评估指标方面始终优于之前的单阶段 CycleGAN 和其他最先进的 SE 系统，尤其是在背景噪声抑制方面

Sep, 2021

MetricGAN: 基于生成对抗网络的黑盒度量分数优化应用于语音增强

本文提出了一种基于 MetricGAN 的条件生成对抗网络，针对一种语音增强任务作了实验，该方法可优化生成器以提高被用户指定的一项或多项评估度量标准的得分。

May, 2019

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

使用生成对抗网络探索语音增强以实现鲁棒的语音识别

本文研究生成对抗网络（Generative Adversarial Networks, GANs）在语音增强领域中的有效性，通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号，并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练（Multi-style Training, MTR）系统的 7％错误率改进。

Nov, 2017

GAN 语音增强系统的损失函数与循环训练

本研究提出了一种卷积循环 GAN (CRGAN) 架构，并采用多种损失函数与其他基于 GAN 的系统进行了直接比较。结果表明，该 CRGAN 模型在同样的损失函数下优于其他基于 GAN 的模型，并且超越其他非 GAN 的系统，表明了 GAN 在语音增强方面的优势。综合评估指标，将客观度量损失函数与均方误差 (MSE) 结合的 CRGAN 模型表现最佳。

Jul, 2020

基于生成对抗网络的歌声分离技术 SVSGAN

本文利用生成对抗网络（GAN）和时频掩模函数提出了一种新的人声分离框架，通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离，利用监督学习初始化参数并利用无监督学习进行优化，实验结果表明该框架可以提高音频分离效果。

Oct, 2017