多模态学习改进少样本语音克隆
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
本文介绍了一种基于注意力机制和零样本说话人自适应技术,在语音克隆技术中可以从几秒钟的参考语音中复制目标语音,从而实现长话语的普遍化,并且可以保持较高的自然度和相似性。
Jan, 2022
本文介绍一种多语言语音合成方法,该方法使用上下文参数生成的元学习概念,使用更少的训练数据和更多的语言产生自然音质的多语言语音;其模型使用 Tacotron 2 和完全卷积输入文本编码器,在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集,同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明,该模型跨语言信息共享效果良好,在 “代码切换” 语音合成中表现更自然、准确。
Aug, 2020
该论文基于 Tacotron 合成模型,采用多说话人、多语言合成的方式,在没有任何双语或平行示例的情况下,实现了跨语言的语音转移。通过使用音素输入表征,鼓励模型跨语言共享模型容量,并结合对抗损失项,鼓励模型将语音内容与说话人身份表示分离,可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。
Jul, 2019
本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中,我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中,我们利用 P-Flow 进行零样本 TTS,同时训练挑战数据集和外部数据集,并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力,而 P-Flow 在 Track 3 上排名第一,得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。
Jan, 2024
研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务,并且提出了几种基线和高级模型,最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。
Nov, 2018