CMGAN:基于 Conformer 的度量 GAN 用于单声道语音增强
本文提出了一种基于 Conformer 的度量生成对抗网络(CMGAN),用于在时频域中进行语音增强,定量分析表明,CMGAN 能够比以前的模型更好地提高性能。
Mar, 2022
利用条件生成对抗网络(cGANs)从噪声语音的谱图到增强副本,将其应用于语音增强(SE)中,并以感知语音质量(PESQ)、短时客观可懂度(STOI)和说话人验证等方面进行评估。实验结果显示,cGAN 方法整体上优于传统的 STSA-MMSE SE 算法,并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。
Sep, 2017
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文提出了一种基于 MetricGAN 的条件生成对抗网络,针对一种语音增强任务作了实验,该方法可优化生成器以提高被用户指定的一项或多项评估度量标准的得分。
May, 2019
提出一个新的框架,可以通过运行生成式对抗网络(GAN)生成更好的音频特征,从而提高自动语音识别(ASR)系统的性能,此框架在资源稀缺的环境中非常有用。
Oct, 2022
本文提出了一种基于两个阶段的去噪系统,该系统通过将 CycleGAN 模型的估计强度与原始嘈杂的相位相结合来获得粗略增强的复杂光谱,并利用复杂光谱映射网络进一步抑制噪声成分和估计干净相位。实验结果表明,该方法在各种评估指标方面始终优于之前的单阶段 CycleGAN 和其他最先进的 SE 系统,尤其是在背景噪声抑制方面
Sep, 2021
本文研究生成对抗网络(Generative Adversarial Networks, GANs)在语音增强领域中的有效性,通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号,并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练(Multi-style Training, MTR)系统的 7%错误率改进。
Nov, 2017
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。
Oct, 2023
本文介绍了 MFCCGAN 作为一种新颖的基于对抗学习的语音合成器,其采用 MFCC 作为输入并生成原始语音波形。 经过 STOI 和 NISQA 得到的实验结果显示,我们提出的系统在可懂度、自然度和质量方面均优于 Librosa MFCC 逆变换,传统的规则 - 基于 vocoder WORLD 的语音合成器以及 CycleGAN-VC 系列中使用的 vocoder WORLD 。
Jun, 2023