Jun, 2024

VALL-E 2: 神经编码语言模型为人类水平的零 - shot 文本到语音合成器

TL;DRVALL-E 2 是零样本文本到语音合成领域最新的神经编解码模型,首次实现了人类水平的合成,并引入了两个重要的改进:重复感知采样和编解码编组建模。实验结果表明 VALL-E 2 在语音鲁棒性、自然程度和说话者相似性方面均超过了之前的系统,在 LibriSpeech 和 VCTK 数据集上取得了人类水平的合成效果,具有很大的潜在应用价值。