Nov, 2021

高质量流媒体语音合成低,句子长度无关的延迟

TL;DR本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。