Glow-TTS：通过单调对齐搜索的生成式流进行文本转语音

May, 2020

Glow-TTS：通过单调对齐搜索的生成式流进行文本转语音

Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search

Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon

TL;DR该论文提出 Glow-TTS，一种基于流的生成模型，用于并行 TTS，无需外部对齐器，并演示了其快速、多样化和可控的语音合成能力，是一种鲁棒的 TTS 模型。

Abstract

Recently, text-to-speech (tts) models such as FastSpeech and ParaNet have been proposed to generate mel-spectrograms from text in parallel. Despite the advantage, the parallel tts models cannot be trained without

tts glow-tts generative model flows multi-speaker setting

发现论文，激发创造

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

一种通用的 TTS 对齐方法

该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架，该框架结合了前向和算法、维特比算法和简单有效的静态先验，可提高 TTS 模型的对齐收敛速度，并使模型对长语音的错误更加鲁棒，从而提高口头合成的质量。

Aug, 2021

基于学习单调对齐来提高 LLM 语音合成的鲁棒性

基于大型语言模型（LLM）的文本到语音（TTS）系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力，但是基于 LLM 的 TTS 模型并不稳健，因为生成的输出可能包含重复的词、缺失的词和错位的语音（即幻觉或注意力错误），特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战，并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健，我们提出了利用 CTC 损失和关注先验的技术，以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数，并显著改善了基于 LLM 的 TTS 模型的稳健性。

Jun, 2024

AlignTTS: 无需显式对齐的高效前馈式语音合成系统

提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱，通过 duration predictor 决定每个字符的持续时间，而动态规划技术则用来考虑所有可能的对齐方式，比 Transformer TTS 更高效且在 MOS（平均意见分数）上优于它。

Mar, 2020

PortaSpeech: 便携式高质量生成式语音合成

提出了一种轻量级的生成式文本到语音（text-to-speech）模型 PortaSpeech，提高了合成语音的真实性和抗扰动性，并且在主观和客观的评估指标上表现最佳，其模型参数数目仅为 FastSpeech 2 的四分之一。

Sep, 2021

Grad-TTS: 一种文本转语音的扩散概率模型

Grad-TTS 是一款使用基于得分的解码器的文本转语音模型，使用随机微积分的方法将通过噪声预测的语音信号和文本输入进行逐步变换，从而实现噪声到语音的重建，并能够在保持音质、推理速度之间进行灵活平衡。主观人评表明 Grad-TTS 在 Mean Opinion Score 方面具有与最先进的文本转语音方法相竞争的能力。

May, 2021

Flowtron: 基于流的自回归生成网络用于文本转语音合成

本文提出了一种自回归基于流的生成网络 Flowtron，用于对语音的合成，并提供了控制语音变化和风格转移的功能。Flowtron 通过最大化训练数据的可能性进行优化，学习将数据映射到一个潜在空间，可以操纵语音合成的许多方面。与现有模型进行比较得出，Flowtron 在语音质量上与最先进的 TTS 模型相匹配。

May, 2020

基于流模型语音转换实现跨语言语音合成以提高发音

该论文介绍了一种端到端的跨语言文字转语音方法，使用基于非注意力 Tacotron 架构的模型，并通过使用条件为说话人身份的归一化流网络，实现 TTS 和语音转换（VC）的可同时进行，该方法可以在低资源情景下获得良好效果。

Oct, 2022

并行 Tacotron：非自回归且可控 TTS

本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron，该模型采用变分自编码器来提高自然性，轻量级卷积来捕获局部上下文，并引入迭代光谱损失以进一步提高自然性，实验结果表明，Parallel Tacotron 与强的自回归基线模型相匹配，并在推理时间上显著提高了效率。

Oct, 2020