一种新的基于 GAN 的端到端 TTS 训练算法
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
介绍了一种基于 transformer 的生成对抗网络用于扩充时间序列的数据大小,实现了能够生成与真实数据序列类似的合成时间序列数据。
Feb, 2022
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题,并使用知识蒸馏使学生模型学习教师模型的输出概率,取得了在中英文系统中对于域外测试数据语音质量的稳定提升。
Nov, 2019
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
该研究提出了两种新方法以解决神经端到端 TTS 模型在挑战性测试集中表现不佳的问题,包括引入差异正则化项和双向解码器正则化,并采用联合训练策略,在提高鲁棒性和自然度方面均取得了显著的改进。
Jul, 2019
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异,并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。
Sep, 2017
本文提出了一种基于生成对抗网络和对抗性训练的正则化方法,可以在神经语言模型中防止过拟合,与常见的对抗性训练方法相比,本方法不需要经过时间的二次反向传播,并且其开销不超过基准方法的 20%。
Nov, 2022