Jan, 2024

ELLA-V: 稳定的神经编码语言建模与对齐引导的序列重排

TL;DR该研究提出了 ELLAA-V,一种基于语言模型的零样本文本转语音框架,可以在音素级别实现合成音频的细粒度控制,并且在准确性和稳定性方面优于现有方法。