Sep, 2023

Matcha-TTS:具有条件流匹配的快速 TTS 架构

TL;DR我们介绍了 Matcha-TTS,一种新的编码器 - 解码器架构,用于快速 TTS 声学建模,使用最优传输条件流匹配(OT-CFM)进行训练。这产生了一种基于 ODE 的解码器,能够在比使用分数匹配训练的模型更少的合成步骤中输出高质量音频。谨慎的设计选择还确保每个合成步骤的运行速度快。该方法是概率的、非自回归的,并且能够在没有外部对齐的情况下学习说话。与强大的预训练基线模型相比,Matcha-TTS 系统具有最小的内存占用量,在长篇讲话中与最快模型的速度相媲美,并在听力测试中获得最高的主观评分。请查看此链接以获取音频示例、代码和预训练模型。