通过扩散 GAN 提升无监督语音识别

Mar, 2023

通过扩散 GAN 提升无监督语音识别

Enhancing Unsupervised Speech Recognition with Diffusion GANs

Xianchao Wu

TL;DR使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Abstract

We enhance the vanilla adversarial training method for unsupervised Automatic Speech Recognition (ASR) by a diffusion-gan. Our model (1) injects instance noises of various intensities to the generator's output and unlabeled reference text which are sampled from pretrained →

unsupervised automatic speech recognition diffusion-gan instance noises phoneme language models word error rate

发现论文，激发创造

通过与迭代精化的隐马尔可夫模型协调的生成对抗网络实现完全无监督语音识别

本研究使用生成对抗网络和隐马尔可夫模型开发了一种适用于低资源语言的无监督语音识别方法，并在 TIMIT 数据集上实现了 33.1% 的电话错误率，比现有技术提高了 8.5%。

Apr, 2019

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023

GAN 能否听见？从扩散模型中重获无条件语音合成

AudioStyleGAN 是一个基于生成对抗网络的语音合成模型，利用噪声转换为分离的潜在向量，并引入新技术成功训练模型和实现不需要显式训练的语音转换和编辑，取得了 Google Speech Commands 数据集上的最佳效果。

Oct, 2022

使用生成对抗网络探索语音增强以实现鲁棒的语音识别

本文研究生成对抗网络（Generative Adversarial Networks, GANs）在语音增强领域中的有效性，通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号，并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练（Multi-style Training, MTR）系统的 7％错误率改进。

Nov, 2017

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

使用数据模拟进行非监督噪声适应

本文提出利用生成式对抗网络实现深度神经网络的非监督噪声自适应问题，成功地解决了训练 - 测试数据集之间的偏差，提高了语音增强模型的性能。

Feb, 2023

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

预训练特征引导扩散模型用于语音增强

通过整合频谱特征到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，结合确定性离散积分方法（DDIM）来简化抽样步骤，我们的模型提高了效率和语音增强质量，同时在两个不同信噪比的公共数据集上展示出最先进的结果，超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能，还增强了实际部署能力，而不增加计算需求。

Jun, 2024

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

无条件语音合成中 GAN 的解缠

提出了一种基于生成对抗网络的音频合成模型 (ASGAN)，它在一个解耦的潜空间中对音频序列进行建模，并且通过引入自适应鉴别器增强技术的修改，它在无条件语音合成领域达到了最先进的水平。

Jul, 2023