利用领域对抗训练的噪声自适应语音增强

Jul, 2018

利用领域对抗训练的噪声自适应语音增强

Noise Adaptive Speech Enhancement using Domain Adversarial Training

Chien-Feng Liao, Yu Tsao, Hung-Yi Lee, Hsin-Min Wang

TL;DR该研究提出了一种新颖的噪声自适应语音增强系统，该系统采用领域对抗训练方法解决训练和测试条件之间的噪声类型不匹配问题。实验结果表明，相较于没有自适应的 SE 系统，该系统在 PESQ、SSNR 和 STOI 方面可实现显著改善。

Abstract

In this study, we propose a novel noise adaptive speech enhancement (SE) system, which employs a domain adversarial training (DAT) approach to tackle the issue of a →

noise adaptive speech enhancement domain adversarial training deep-learning-based se systems noise type mismatch encoder-decoder-based enhancement model

发现论文，激发创造

使用数据模拟进行非监督噪声适应

本文提出利用生成式对抗网络实现深度神经网络的非监督噪声自适应问题，成功地解决了训练 - 测试数据集之间的偏差，提高了语音增强模型的性能。

Feb, 2023

面向口音语音识别的领域对抗训练

本文提出了一个领域对抗训练算法（DAT）来缓解口音识别问题。我们将领域对抗训练（DAT）目标与 Kaldi TDNN 网络的学习目标相结合，鼓励模型学习不受口音影响的特征，以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验，我们发现，与仅训练标准口音数据的基线相比，当我们没有口音转录时，DAT 可以使得字符错误率相对降低达 7.45％。我们还发现，DAT 与口音数据自动转录训练结合使用时具有优势，并且 DAT 比多任务学习在口音识别方面更为优异。

Jun, 2018

噪声感知语音增强处理技术 —— 基于扩散概率模型

本文提出了一种噪声感知语音增强方法，通过噪声分类模型提取噪声特定信息来指导扩散模型中的逆向去噪过程，并采用多任务学习模式来优化增强和分类任务，实验表明该方法在 VoiceBank-DEAMND 数据集上的性能显著优于多种扩散型语音增强方法，尤其是在未知噪声上表现出较好的泛化性能。

Jul, 2023

无监督领域分离网络的自适应算法用于强化语音识别

本文提出了一种基于深度神经网络的非监督领域自适应技术，该技术通过训练既能执行音素分类，又能执行领域分类的 DNN 模型，并明确建模两个域之间的不同之处，可以在 CHiME-3 数据集上实现接近 11.08％的相对词错误率（WER）降低。

Nov, 2017

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

对抗式学习原始语音特征实现领域不变语音识别

本文探讨了对抗训练在自动语音识别中应用的有效性，在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明，对抗训练能够有效地进行无监督领域自适应，从而强调了 DANNs 从原始语音学习领域不变特征的能力。

May, 2018

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

十分钟领先同领域数据噪声鲁棒语音识别

本文介绍了一种基于生成对抗网络（GAN）的噪声鲁棒性语音识别系统，只需使用 10 分钟的领域内无法匹配的嘈杂语音数据即可实现噪声谱的仿真。同时，我们还提出了一种双通道语音识别系统来提高在嘈杂环境下的稳健性能，实验证明所提出的系统通过 Simu-GAN 仿真噪声数据，比最佳基线在词错误率（WER）方面提高了 7.3%。

Mar, 2022

基于变分自编码数据增强的无监督领域自适应技术，用于提高语音识别鲁棒性

本文采用基于自动选择属性变化的方法，通过对抗性学习和数据增强对源域语音数据进行协同变换以解决在鲁棒语音识别中遇到的训练 - 测试领域差异问题，实验表明将绝对词语误差率最多降低 35%。

Jul, 2017

用于语音增强和抗噪声说话人验证的条件生成对抗网络

利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Sep, 2017