端到端对抗文本转语音
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
该研究提出了 Tacotron,一种端到端的生成式文本转语音模型,通过多个关键技术在序列到序列的框架下进行良好性能表现,同时模型以帧为单位直接生成语音,表现自然度和速度方面优于传统的参数化系统。
Mar, 2017
通过生成对抗训练的端到端语音合成系统,我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的 Vocoder,并通过几种预训练模型来实验上下文化和去上下文化的词嵌入,同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。
Oct, 2023
该论文提出了一种基于生成对抗网络的端到端视频到语音模型,该模型能够直接合成原始音频波形,无需使用中间表示或单独的波形重建算法,同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。
Apr, 2021
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络 TTS 系统,并具有明显的加速优势。
Nov, 2020
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
该研究提出了一种使用生成对抗网络 (GANs) 的方法,从感知上启发的频谱图到简单的幅度谱图进行映射,以达到比现有的 TTS 系统更快的速度和更好的性能。
Apr, 2019
本文建立了一个端到端的多模块合成语音生成模型,包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器,并在不同数据集和模型结构上进行了大量比较实验。最终,我们在 ADD 2023 挑战赛中荣获第一名,加权欺骗成功率为 44.97%。
Jul, 2023