使用对抗性声码器加速TTS合成
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同GAN之间的差异,并发现最小化Earth-Mover距离的Wasserstein GAN可以最大程度地提高合成语音的质量。
Sep, 2017
本篇论文介绍了WaveGAN,这是将GANs应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源-滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。
Apr, 2018
提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架,并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中,实验结果表明,使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型,评估得分最高,同时具有最佳的质量和说话人相似度。
Jul, 2018
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估GAN-TTS的性能。
Sep, 2019
该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。
Jun, 2020
该论文提出了一种基于生成对抗网络的端到端视频到语音模型,该模型能够直接合成原始音频波形,无需使用中间表示或单独的波形重建算法,同时在GRID和LRW数据集上的表现比以前的方法更好。
Apr, 2021
通过生成对抗训练的端到端语音合成系统,我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的Vocoder,并通过几种预训练模型来实验上下文化和去上下文化的词嵌入,同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。
Oct, 2023
本研究解决了使用全频谱输入的声码器在语音合成中导致的过度平滑问题,影响了合成语音的自然性。我们提出了一种名为VNet的GAN基础神经声码器网络,采用多层鉴别器结构来提升信号的高分辨率,并通过对抗损失的渐近约束方法增强了训练过程的稳定性。实验结果表明,VNet在生成高保真语音方面表现优异,为声码器的性能提升提供了有效解决方案。
Aug, 2024