开放语音：多功能即时语音克隆

Dec, 2023

OpenVoice: Versatile Instant Voice Cloning

Zengyi Qin, Wenliang Zhao, Xumin Yu, Xin Sun

TL;DROpenVoice 是一种全能的语音克隆方法，仅需参考说话者的短音频剪辑即可复制其声音，并在多种语言中生成语音。

Abstract

We introduce openvoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. →

openvoice voice cloning flexible voice style control zero-shot cross-lingual voice cloning computationally efficient

发现论文，激发创造

零样本多说话人文本语音中的准确声调复制

本论文采用 utterance 级别的规范化和发音人嵌入，在提取精细的韵律特征的同时，成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验，结果表明可以在不降低质量的条件下，成功实现语音的克隆。

Jun, 2022

使用少量样本的神经语音克隆

本文针对少量音频样本的情况，提出了一种基于神经网络的语音克隆系统，通过训练来进行说话人的自适应和编码，实现语音的自然性和相似度，适用于低资源系统的使用。

Feb, 2018

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

一种基于 VITS2 的多说话人多语言语音克隆系统，用于 limmits2024 挑战

本文介绍了一个语音合成系统的开发，用于 LIMMITS'24 挑战赛，主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统，涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练，并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试，评估自然度和发言人相似性。我们的系统使用了 VITS2 架构，结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段，不允许使用额外数据的情况下，我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段，得分为 4.17。

Jun, 2024

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

利用语音克隆对印度语言进行规模化的 NVIDIA 多说话人多语音 TTS 系统

本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中，我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中，我们利用 P-Flow 进行零样本 TTS，同时训练挑战数据集和外部数据集，并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力，而 P-Flow 在 Track 3 上排名第一，得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。

Jan, 2024

多模态学习改进少样本语音克隆

这篇文章提出使用多模态学习来改进少样本语音克隆性能，并通过在 Tacotron2 上增加无监督语音表示模块来构建该系统，实验结果表明，该多模态学习方法可以极大地提高语音克隆性能。

Mar, 2022

VoiceShop：一个保持身份的统一语音到语音框架，专为零样本语音编辑设计

我们提出了 VoiceShop，这是一个新颖的语音到语音框架，可以在单次前向传播中修改语音的多个属性，如年龄、性别、口音和语音风格，同时保留输入说话人的音色。

Apr, 2024