多模态学习改进少样本语音克隆

Mar, 2022

Improve few-shot voice cloning using multi-modal learning

Haitong Zhang, Yue Lin

TL;DR这篇文章提出使用多模态学习来改进少样本语音克隆性能，并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统，实验结果表明，该多模态学习方法可以极大地提高语音克隆性能。

Abstract

Recently, few-shot voice cloning has achieved a significant improvement. However, most models for few-shot voice cloning are single-modal, and multi-modal →

few-shot voice cloning multi-modal learning unsupervised speech representation text-to-speech voice conversion

发现论文，激发创造

使用少量样本的神经语音克隆

本文针对少量音频样本的情况，提出了一种基于神经网络的语音克隆系统，通过训练来进行说话人的自适应和编码，实现语音的自然性和相似度，适用于低资源系统的使用。

Feb, 2018

多模态帮助单模态：利用多模态模型进行跨模态少样本学习

通过跨模态训练，结合视觉和语言信息，利用少量的训练样本和类名，建立了一个更好的狗狗分类器，并构建了第一个音视频少样本学习基准。

Jan, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

利用语音克隆对印度语言进行规模化的 NVIDIA 多说话人多语音 TTS 系统

本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中，我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中，我们利用 P-Flow 进行零样本 TTS，同时训练挑战数据集和外部数据集，并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力，而 P-Flow 在 Track 3 上排名第一，得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。

Jan, 2024

语音和图像的多模态单样本学习

研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Nov, 2018

多模态 CLIP 推理用于元 - 少样本图像分类

结合 CLIP 的文本和图像编码器的多模态方法，在广泛采用的基准测试上超越了最先进的元少样学习模型，而无需额外训练。

Mar, 2024