利用生成对抗网络进行鲁棒语音识别

Nov, 2017

利用生成对抗网络进行鲁棒语音识别

Robust Speech Recognition Using Generative Adversarial Networks

Anuroop Sriram, Heewoo Jun, Yashesh Gaur, Sanjeev Satheesh

TL;DR本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Abstract

This paper describes a general, scalable, end-to-end framework that uses the generative adversarial network (GAN) objective to enable robust speech recognition. Encoders trained with the proposed approach enjoy improved

generative adversarial network invariance audio speech recognition data-driven

发现论文，激发创造

使用生成对抗网络探索语音增强以实现鲁棒的语音识别

本文研究生成对抗网络（Generative Adversarial Networks, GANs）在语音增强领域中的有效性，通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号，并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练（Multi-style Training, MTR）系统的 7％错误率改进。

Nov, 2017

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

十分钟领先同领域数据噪声鲁棒语音识别

本文介绍了一种基于生成对抗网络（GAN）的噪声鲁棒性语音识别系统，只需使用 10 分钟的领域内无法匹配的嘈杂语音数据即可实现噪声谱的仿真。同时，我们还提出了一种双通道语音识别系统来提高在嘈杂环境下的稳健性能，实验证明所提出的系统通过 Simu-GAN 仿真噪声数据，比最佳基线在词错误率（WER）方面提高了 7.3%。

Mar, 2022

通过与迭代精化的隐马尔可夫模型协调的生成对抗网络实现完全无监督语音识别

本研究使用生成对抗网络和隐马尔可夫模型开发了一种适用于低资源语言的无监督语音识别方法，并在 TIMIT 数据集上实现了 33.1% 的电话错误率，比现有技术提高了 8.5%。

Apr, 2019

基于生成对抗网络的语音去混响方法研究，用于增强语音识别鲁棒性

本文探讨了生成式对抗网络在语音去混响中的应用及其提高语音识别性能的优势，通过实验发现将 LSTM 与深度残差网络相结合可达到 16% 的语音识别误差率相对下降。

Mar, 2018

用于语音增强和抗噪声说话人验证的条件生成对抗网络

利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Sep, 2017

基于生成对抗网络的端到端视频语音合成

该论文提出了一种基于生成对抗网络的端到端视频到语音模型，该模型能够直接合成原始音频波形，无需使用中间表示或单独的波形重建算法，同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。

Apr, 2021

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019