May, 2023

EfficientSpeech: 一个本地化文本到语音模型

TL;DR本文提出了一种名为 EfficientSpeech 的神经文本转语音模型,它可以在资源受限且没有互联网访问的边缘设备上使用 ARM CPU 实时合成语音,并且相比现代紧凑型模型,参数和计算量仅为 1%,可实现平均 104.3 倍的实时因素,人类评估显示与 FastSpeech2 相比,音频质量仅略有下降。