Jan, 2024

增量式 FastPitch:基于分块的高质量文本语音合成

TL;DR提出了增量 FastPitch,这是一种使用块基 FFT 块、受限的块注意力蒙版进行训练和固定尺寸过去模型状态进行推理的 FastPitch 变体,可以产生与并行 FastPitch 相当的语音质量,并且具有更低的延迟,适用于实时语音应用。