开放语音:多功能即时语音克隆
本论文采用 utterance 级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。
Jun, 2022
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
本文介绍了一个语音合成系统的开发,用于 LIMMITS'24 挑战赛,主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统,涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练,并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试,评估自然度和发言人相似性。我们的系统使用了 VITS2 架构,结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段,不允许使用额外数据的情况下,我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段,得分为 4.17。
Jun, 2024
本文介绍了一种基于注意力机制和零样本说话人自适应技术,在语音克隆技术中可以从几秒钟的参考语音中复制目标语音,从而实现长话语的普遍化,并且可以保持较高的自然度和相似性。
Jan, 2022
该论文基于 Tacotron 合成模型,采用多说话人、多语言合成的方式,在没有任何双语或平行示例的情况下,实现了跨语言的语音转移。通过使用音素输入表征,鼓励模型跨语言共享模型容量,并结合对抗损失项,鼓励模型将语音内容与说话人身份表示分离,可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。
Jul, 2019
该研究使用多语言方法进行零样本多说者语音合成,可在低资源语种上实现零样本语音转换,使用 VITS 模型,经过多项创新修改后,在 VCTK 数据集上实现了最先进的结果,并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。
Dec, 2021
本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中,我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中,我们利用 P-Flow 进行零样本 TTS,同时训练挑战数据集和外部数据集,并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力,而 P-Flow 在 Track 3 上排名第一,得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。
Jan, 2024
这篇文章提出使用多模态学习来改进少样本语音克隆性能,并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统,实验结果表明,该多模态学习方法可以极大地提高语音克隆性能。
Mar, 2022
我们提出了 VoiceShop,这是一个新颖的语音到语音框架,可以在单次前向传播中修改语音的多个属性,如年龄、性别、口音和语音风格,同时保留输入说话人的音色。
Apr, 2024