May, 2020

JDI-T: 基于时长信息的联合训练变压器语音合成模型,无需显式对齐

TL;DR本文提出了 JDI-T 模型,它是一个带有持续时间预测器的前馈 Transformer,经过联合训练可以从输入文本生成声学特征序列。该模型是第一个在单一训练过程中联合训练前馈 Transformer,而无需依赖预先训练的音素持续时间提取器。在公开数据集 KSS 上与基线 ESPnet-TTS 模型进行比较,实验证明该模型有效性较高。