用生成对抗网络加强有缺口的语音音频信号
本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准确性方面对生成的音频进行评价。
Jun, 2019
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
该论文提出了一种基于生成对抗网络的端到端视频到语音模型,该模型能够直接合成原始音频波形,无需使用中间表示或单独的波形重建算法,同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。
Apr, 2021
提出一个新的框架,可以通过运行生成式对抗网络(GAN)生成更好的音频特征,从而提高自动语音识别(ASR)系统的性能,此框架在资源稀缺的环境中非常有用。
Oct, 2022
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
本文研究生成对抗网络(Generative Adversarial Networks, GANs)在语音增强领域中的有效性,通过操作 GANs 在 log-Mel 滤波器组上而非波形上以增强受到加性和混响噪声污染的语音信号,并通过将 GAN 增强特征附加至含噪输入并再次训练而获得了相对于传统多风格训练(Multi-style Training, MTR)系统的 7%错误率改进。
Nov, 2017
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异,并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。
Sep, 2017