Glow-TTS:通过单调对齐搜索的生成式流进行文本转语音
提出了 StyleTTS,一种基于风格的生成模型,用于生成具有自然韵律的多样化语音,通过自监督学习表示发声风格,无需明确标记。在内部评估中,该模型在单人和多人语音数据集中均优于最先进的模型。
May, 2022
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架,该框架结合了前向和算法、维特比算法和简单有效的静态先验,可提高 TTS 模型的对齐收敛速度,并使模型对长语音的错误更加鲁棒,从而提高口头合成的质量。
Aug, 2021
基于大型语言模型(LLM)的文本到语音(TTS)系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力,但是基于 LLM 的 TTS 模型并不稳健,因为生成的输出可能包含重复的词、缺失的词和错位的语音(即幻觉或注意力错误),特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战,并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健,我们提出了利用 CTC 损失和关注先验的技术,以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数,并显著改善了基于 LLM 的 TTS 模型的稳健性。
Jun, 2024
提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱,通过 duration predictor 决定每个字符的持续时间,而动态规划技术则用来考虑所有可能的对齐方式,比 Transformer TTS 更高效且在 MOS(平均意见分数)上优于它。
Mar, 2020
提出了一种轻量级的生成式文本到语音(text-to-speech)模型 PortaSpeech,提高了合成语音的真实性和抗扰动性,并且在主观和客观的评估指标上表现最佳,其模型参数数目仅为 FastSpeech 2 的四分之一。
Sep, 2021
Grad-TTS 是一款使用基于得分的解码器的文本转语音模型,使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换,从而实现噪声到语音的重建,并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。
May, 2021
本文提出了一种自回归基于流的生成网络 Flowtron,用于对语音的合成,并提供了控制语音变化和风格转移的功能。Flowtron 通过最大化训练数据的可能性进行优化,学习将数据映射到一个潜在空间,可以操纵语音合成的许多方面。与现有模型进行比较得出,Flowtron 在语音质量上与最先进的 TTS 模型相匹配。
May, 2020
该论文介绍了一种端到端的跨语言文字转语音方法,使用基于非注意力 Tacotron 架构的模型,并通过使用条件为说话人身份的归一化流网络,实现 TTS 和语音转换(VC)的可同时进行,该方法可以在低资源情景下获得良好效果。
Oct, 2022
本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron,该模型采用变分自编码器来提高自然性,轻量级卷积来捕获局部上下文,并引入迭代光谱损失以进一步提高自然性,实验结果表明,Parallel Tacotron 与强的自回归基线模型相匹配,并在推理时间上显著提高了效率。
Oct, 2020