May, 2020
JDI-T: 基于时长信息的联合训练变压器语音合成模型,无需显式对齐
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment
Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim...
TL;DR本文提出了 JDI-T 模型,它是一个带有持续时间预测器的前馈 Transformer,经过联合训练可以从输入文本生成声学特征序列。该模型是第一个在单一训练过程中联合训练前馈 Transformer,而无需依赖预先训练的音素持续时间提取器。在公开数据集 KSS 上与基线 ESPnet-TTS 模型进行比较,实验证明该模型有效性较高。