JDI-T: 基于时长信息的联合训练变压器语音合成模型，无需显式对齐

May, 2020

JDI-T: 基于时长信息的联合训练变压器语音合成模型，无需显式对齐

JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment

Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim...

TL;DR本文提出了 JDI-T 模型，它是一个带有持续时间预测器的前馈 Transformer，经过联合训练可以从输入文本生成声学特征序列。该模型是第一个在单一训练过程中联合训练前馈 Transformer，而无需依赖预先训练的音素持续时间提取器。在公开数据集 KSS 上与基线 ESPnet-TTS 模型进行比较，实验证明该模型有效性较高。

Abstract

We propose Jointly trained Duration Informed transformer (jdi-t), a feed-forward transformer with a →

jdi-t transformer duration predictor text-to-speech korean

发现论文，激发创造

联合预测符号和持续时间实现高效的序列转换

介绍了一种用于序列到序列任务的新型 Token-and-Duration Transducer (TDT) 框架，该框架通过联合预测令牌及其持续时间来扩展传统的 RNN-Transducer 架构，可以提高序列传导任务上的准确性和推断速度。

Apr, 2023

AlignTTS: 无需显式对齐的高效前馈式语音合成系统

提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱，通过 duration predictor 决定每个字符的持续时间，而动态规划技术则用来考虑所有可能的对齐方式，比 Transformer TTS 更高效且在 MOS（平均意见分数）上优于它。

Mar, 2020

使用前馈 Transformer 进行序列到序列歌唱合成

提出了一种基于 Transformer 模型的序列到序列歌曲合成器，使用自身注意力机制结合初始的音长模型来准确合成出作曲家想要的声音，相比于基于老师强制训练的自回归模型，具有更快的推理速度和更好的生成效果。

Oct, 2019

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

DurIAN: 基于时长信息的注意力多模态合成网络

本文提出了一种通用、强大的多模态合成系统，可以同时生成自然语音和面部表情，并能改善现有的端到端语音合成系统中的词跳过 / 重复错误，同时可以对语音和面部表情的表现力进行细粒度控制。

Sep, 2019

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Feb, 2023

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

非注意力 Tacotron: 包括无监督持续时间建模的强大和可控制的神经 TTS 合成

本文介绍了一种基于 Tacotron 2 的非注意力 Tacotron 模型，用显式的持续时间预测器替代了注意力机制，从而显著提高了稳健性检测度量，并通过使用预先训练的语音识别模型引入两个指标进行大规模稳健性评估。

Oct, 2020

关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

通过生成的合成数据以及时长建模来改进低资源环境或领域不匹配任务中的自动语音识别系统，并使用半监督方法在改进中合成数据的语音识别系统中取得了改进。

Oct, 2023

一种通用的 TTS 对齐方法

该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架，该框架结合了前向和算法、维特比算法和简单有效的静态先验，可提高 TTS 模型的对齐收敛速度，并使模型对长语音的错误更加鲁棒，从而提高口头合成的质量。

Aug, 2021