SEGAN: 语音增强生成对抗网络

Mar, 2017

SEGAN: Speech Enhancement Generative Adversarial Network

Santiago Pascual, Antonio Bonafonte, Joan Serrà

TL;DR本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Abstract

Current speech enhancement techniques operate on the spectral domain and/or exploit some higher-level feature. The majority of them tackle a limited number of noise conditions and rely on first-order statistics.

speech enhancement generative adversarial networks waveform level noise conditions deep networks

发现论文，激发创造

使用生成对抗网络探索语音增强以实现鲁棒的语音识别

本文研究生成对抗网络（Generative Adversarial Networks, GANs）在语音增强领域中的有效性，通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号，并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练（Multi-style Training, MTR）系统的 7％错误率改进。

Nov, 2017

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

用于语音增强和抗噪声说话人验证的条件生成对抗网络

利用条件生成对抗网络（cGANs）从噪声语音的谱图到增强副本，将其应用于语音增强（SE）中，并以感知语音质量（PESQ）、短时客观可懂度（STOI）和说话人验证等方面进行评估。实验结果显示，cGAN 方法整体上优于传统的 STSA-MMSE SE 算法，并且与基于深度神经网络的 SE 方法 (DNN-SE) 相当。

Sep, 2017

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

使用数据模拟进行非监督噪声适应

本文提出利用生成式对抗网络实现深度神经网络的非监督噪声自适应问题，成功地解决了训练 - 测试数据集之间的偏差，提高了语音增强模型的性能。

Feb, 2023

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

基于生成对抗网络的端到端视频语音合成

该论文提出了一种基于生成对抗网络的端到端视频到语音模型，该模型能够直接合成原始音频波形，无需使用中间表示或单独的波形重建算法，同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。

Apr, 2021

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Aug, 2018

面向私有语音生成的对抗表示学习

通过生成式对抗网络（GANs）的模型设计，训练一个 U 型卷积神经网络，用于隐藏声音数据中的敏感个人信息，例如性别等。

Jun, 2020