Jun, 2024

Small-E:用线性注意力实现高效语音合成的小型语言模型

TL;DR最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高效训练,并在相同规模的基准模型上实现最先进的零样本声音克隆。