通过扩散 GAN 提升无监督语音识别
本研究使用生成对抗网络和隐马尔可夫模型开发了一种适用于低资源语言的无监督语音识别方法,并在 TIMIT 数据集上实现了 33.1% 的电话错误率,比现有技术提高了 8.5%。
Apr, 2019
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
AudioStyleGAN 是一个基于生成对抗网络的语音合成模型,利用噪声转换为分离的潜在向量,并引入新技术成功训练模型和实现不需要显式训练的语音转换和编辑,取得了 Google Speech Commands 数据集上的最佳效果。
Oct, 2022
本文研究生成对抗网络(Generative Adversarial Networks, GANs)在语音增强领域中的有效性,通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号,并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练(Multi-style Training, MTR)系统的 7%错误率改进。
Nov, 2017
最近,条件评分驱动扩散模型在监督式语音增强领域引起了显著关注,取得了最先进的性能。然而,这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题,我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言,训练阶段,在短时傅里叶变换(STFT)领域中使用评分驱动扩散模型学习了干净语音的先验分布,使其能够从高斯噪声中无条件地生成干净语音。然后,我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化(EM)方法与干净语音估计同时学习。据我们所知,这是第一个探索基于扩散的生成模型用于无监督语音增强的工作,与最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法相比,取得了有希望的结果。因此,它为未来的无监督语音增强研究开辟了新的方向。
Sep, 2023
提出一个新的框架,可以通过运行生成式对抗网络(GAN)生成更好的音频特征,从而提高自动语音识别(ASR)系统的性能,此框架在资源稀缺的环境中非常有用。
Oct, 2022
通过整合频谱特征到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,结合确定性离散积分方法(DDIM)来简化抽样步骤,我们的模型提高了效率和语音增强质量,同时在两个不同信噪比的公共数据集上展示出最先进的结果,超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能,还增强了实际部署能力,而不增加计算需求。
Jun, 2024
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
提出了一种基于生成对抗网络的音频合成模型 (ASGAN),它在一个解耦的潜空间中对音频序列进行建模,并且通过引入自适应鉴别器增强技术的修改,它在无条件语音合成领域达到了最先进的水平。
Jul, 2023