CMGAN：基于 Conformer 的度量 GAN 用于单声道语音增强

Sep, 2022

CMGAN：基于 Conformer 的度量 GAN 用于单声道语音增强

CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement

Sherif Abdulatif, Ruizhe Cao, Bin Yang

TL;DR本文提出了基于 Conformers 的度量生成对抗网络（CMGAN）用于时频域中的语音增强，并且在消除噪声、去混响和超分辨率等三个语音增强任务上取得了优越的性能。

Abstract

Convolution-augmented transformers (conformers) are recently proposed in various speech-domain applications, such as automatic speech recognition (ASR) and speech separation, as they can capture both local and global dependencies. In this paper, we propose a conformer-based metric gene

conformers speech enhancement generative adversarial network spectrogram metric discriminator

发现论文，激发创造

CMGAN：基于 Conformer 的度量 GAN 语音增强

本文提出了一种基于 Conformer 的度量生成对抗网络（CMGAN），用于在时频域中进行语音增强，定量分析表明，CMGAN 能够比以前的模型更好地提高性能。

Mar, 2022

用于语音增强和抗噪声说话人验证的条件生成对抗网络

利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Sep, 2017

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

MetricGAN: 基于生成对抗网络的黑盒度量分数优化应用于语音增强

本文提出了一种基于 MetricGAN 的条件生成对抗网络，针对一种语音增强任务作了实验，该方法可优化生成器以提高被用户指定的一项或多项评估度量标准的得分。

May, 2019

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

使用循环一致生成对抗网络的两阶段复杂网络进行语音增强

本文提出了一种基于两个阶段的去噪系统，该系统通过将 CycleGAN 模型的估计强度与原始嘈杂的相位相结合来获得粗略增强的复杂光谱，并利用复杂光谱映射网络进一步抑制噪声成分和估计干净相位。实验结果表明，该方法在各种评估指标方面始终优于之前的单阶段 CycleGAN 和其他最先进的 SE 系统，尤其是在背景噪声抑制方面

Sep, 2021

使用生成对抗网络探索语音增强以实现鲁棒的语音识别

本文研究生成对抗网络（Generative Adversarial Networks, GANs）在语音增强领域中的有效性，通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号，并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练（Multi-style Training, MTR）系统的 7％错误率改进。

Nov, 2017

关于嘈杂多信道语音分离中的时域 Conformer 模型

语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器（conformers）在许多语音处理任务中表现良好，但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络（TasNets）。一些成功的模型利用了双路径（DP）网络，这些网络顺序处理本地和全局信息。时域 conformers（TD-Conformers）是 DP 方法的一种类似方式，它们也顺序处理本地和全局上下文，但时间复杂性函数不同。结果表明，在现实中较短的信号长度下，控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。

Oct, 2023

MFCCGAN：一种基于 MFCC 的语音合成器，利用对抗学习实现

本文介绍了 MFCCGAN 作为一种新颖的基于对抗学习的语音合成器，其采用 MFCC 作为输入并生成原始语音波形。经过 STOI 和 NISQA 得到的实验结果显示，我们提出的系统在可懂度、自然度和质量方面均优于 Librosa MFCC 逆变换，传统的规则 - 基于 vocoder WORLD 的语音合成器以及 CycleGAN-VC 系列中使用的 vocoder WORLD 。

Jun, 2023