SC VALL-E:风格可控的零样本文本到语音合成器
本文介绍了一种基于语言模型的文本到语音合成方法,使用名为 Vall-E 的神经编解码器语言模型,通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大,可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音,并能够在保持发言人情感和声学环境的前提下,提高声音自然度和发言人相似度。
Jan, 2023
VALL-E 2 是零样本文本到语音合成领域最新的神经编解码模型,首次实现了人类水平的合成,并引入了两个重要的改进:重复感知采样和编解码编组建模。实验结果表明 VALL-E 2 在语音鲁棒性、自然程度和说话者相似性方面均超过了之前的系统,在 LibriSpeech 和 VCTK 数据集上取得了人类水平的合成效果,具有很大的潜在应用价值。
Jun, 2024
利用离散神经音频编解码器,我们提出了 VALL-E R,一个强大且高效的零 - shot 语音合成系统,通过引入音素单调对齐策略和编解码器合并方法,提高了音素的可控性,加快了解码速度,并取得了接近真实语音的字词错误率和超过 60% 的推理时间减少。
Jun, 2024
本研究提出了一种跨语言神经编解码语言模型,VALL-E X,用于跨语言语音合成,并通过实验证明其在零样本跨语言文本到语音合成和零样本语音到语音翻译任务中能够生成质量高的语音。此外,VALL-E X 可有效缓解外国口音问题,可通过语言 ID 控制。
Mar, 2023
该研究提出了 ELLAA-V,一种基于语言模型的零样本文本转语音框架,可以在音素级别实现合成音频的细粒度控制,并且在准确性和稳定性方面优于现有方法。
Jan, 2024
该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法,利用双模态风格编码器以及新的风格损失函数,实现高质量的表达性语音合成。
Jul, 2022
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然后将其馈入 TTS 网络来引导语音合成中的风格,可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃,采用了多种技术。最后,所提出的模型在风格控制上表现良好,并在风格转移的 ABX 偏好测试中优于全局风格令牌(GST)模型。
Dec, 2018
控制语音 (ControlSpeech) 是一个文本到语音系统,能够完全克隆说话者的声音,并且可以根据几秒钟的音频提示和简单的文本风格描述提示进行任意控制和调整。
Jun, 2024
该研究提出了一种神经序列到序列的文本转语音模型,基于变分自动编码器(VAE)框架,通过两级分层潜变量,实现对生成语音中很少被训练数据标记的潜在属性的控制,包括口音、语速、噪声等,其中第一级为类别变量,第二级为多元高斯变量,通过高斯混合模型 (GMM) 实现。经广泛评估,该模型展现出控制这些潜在属性的能力。
Oct, 2018
RALL-E 是一种用于文本到语音合成的鲁棒语言建模方法,通过链式思维提示和自注意力机制来增强基于大型语言模型的语音合成的稳健性。
Apr, 2024