FastSpeech: 快速、健壮、可控的文本到语音
本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题,在效率和性能方面实现了 state-of-the-art 表现。
Sep, 2018
提出了 FastSpeech 2,直接使用语音波形从文本中生成语音,并且通过使用更多的变化信息作为条件输入,解决了非自回归文本到语音模型中的一对多映射问题,从而实现更高的语音质量。
Jun, 2020
该论文阐述了 Tacotron 2 的神经网络框架,该框架可以从文本中直接合成语音,其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成,能够实现与专业录制的语音相当的平均意见分数 (MOS)。
Dec, 2017
本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络 TTS 系统,并具有明显的加速优势。
Nov, 2020
本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统,通过几个特殊设计的组件 / 技术改善了文本到语音的对齐,并在多个数据集上展示了其效果。
Jun, 2020
该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法,使用逐字符或逐音素音频输出序列,通过可微分的对齐策略来保证高保真度音频的生成,实现了在不需要多阶段训练和额外监督下,比之前的技术达到了相似的高质量合成音效。
Jun, 2020
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。
Jun, 2018
本文提出 ParaNet,一种非自回归 seq2seq 模型,用于将文本转换为频谱图,并通过各种平行神经音色器进行了测试,其中包括一种基于 VAE 的方法,用于从头开始训练反自回归流(IAF)平行音色器。
May, 2019
本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron,该模型采用变分自编码器来提高自然性,轻量级卷积来捕获局部上下文,并引入迭代光谱损失以进一步提高自然性,实验结果表明,Parallel Tacotron 与强的自回归基线模型相匹配,并在推理时间上显著提高了效率。
Oct, 2020
提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱,通过 duration predictor 决定每个字符的持续时间,而动态规划技术则用来考虑所有可能的对齐方式,比 Transformer TTS 更高效且在 MOS(平均意见分数)上优于它。
Mar, 2020