BriefGPT.xyz
Ask
alpha
关键词
zero-shot text-to-speech synthesis
搜索结果 - 2
VALL-E R:鲁棒高效的零射文本语音合成方法:单调对齐
利用离散神经音频编解码器,我们提出了 VALL-E R,一个强大且高效的零 - shot 语音合成系统,通过引入音素单调对齐策略和编解码器合并方法,提高了音素的可控性,加快了解码速度,并取得了接近真实语音的字词错误率和超过 60% 的推理时
→
PDF
24 days ago
VALL-E 2: 神经编码语言模型为人类水平的零 - shot 文本到语音合成器
VALL-E 2 是零样本文本到语音合成领域最新的神经编解码模型,首次实现了人类水平的合成,并引入了两个重要的改进:重复感知采样和编解码编组建模。实验结果表明 VALL-E 2 在语音鲁棒性、自然程度和说话者相似性方面均超过了之前的系统,在
→
PDF
a month ago
Prev
Next