Jun, 2024

VALL-E R:鲁棒高效的零射文本语音合成方法:单调对齐

TL;DR利用离散神经音频编解码器,我们提出了 VALL-E R,一个强大且高效的零-shot 语音合成系统,通过引入音素单调对齐策略和编解码器合并方法,提高了音素的可控性,加快了解码速度,并取得了接近真实语音的字词错误率和超过 60% 的推理时间减少。