本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron,该模型采用变分自编码器来提高自然性,轻量级卷积来捕获局部上下文,并引入迭代光谱损失以进一步提高自然性,实验结果表明,Parallel Tacotron 与强的自回归基线模型相匹配,并在推理时间上显著提高了效率。
Oct, 2020
本文提出了一种新的并行波形生成的解决方案,使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外,我们还介绍了一种全卷积的文本到波形神经架构,能够从头开始进行快速端到端培训,极大地优于以前的流程。
Jul, 2018
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
本文提出了适应性讲话者神经声码器,用于参数文本到语音(TTS)系统,利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。
Nov, 2018
提出了一种轻量级的生成式文本到语音(text-to-speech)模型 PortaSpeech,提高了合成语音的真实性和抗扰动性,并且在主观和客观的评估指标上表现最佳,其模型参数数目仅为 FastSpeech 2 的四分之一。
Sep, 2021
本研究描述了一种序列到序列的神经网络,可以直接将文本输入转化为语音波形,具备较快的语音生成速度,而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合,对输出波形进行建模,并能够处理长期依赖关系。实验证明,所提出的模型的语音生成质量接近最新的神经网络 TTS 系统,并具有明显的加速优势。
Nov, 2020
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
利用基于 WaveNet 架构的新型合成模型,对参数声码器产生的特征进行建模,并使用混合密度输出,实现对每个帧的预测,避免了过度拟合,在预测错误的情况下进行自回归生成算法的正则化,成功将和声、非周期性和有声 / 无声组件预测在一起,比现有的参数化统计方法和拼接方法更为有效。
Apr, 2017
为了加速端到端语音识别中的推理,本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer,其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量,并使用瞥见语言模型(GLM)实现语义嵌入,最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中,Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。
Jun, 2022
本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频