StarGAN-ZSVC：低资源环境下的零样本语音转换

MMMay, 2021

StarGAN-ZSVC：低资源环境下的零样本语音转换

StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource Contexts

Matthew Baas, Herman Kamper

TL;DR本文提出了一个基于生成性对抗网络的语音转换模型，该模型可以在零阶设置下使用未见过的讲话者，并且在实时或更快的速度下运行，与其他语音转换技术相比，该模型在小量数据的零阶设置下表现优异。

Abstract

voice conversion is the task of converting a spoken utterance from a source speaker so that it appears to be said by a different target speaker while retaining the linguistic content of the utterance. Recent advances have led to major improvements in the quality of →

voice conversion generative adversarial networks zero-shot setting real time speaker embedding

发现论文，激发创造

StarGAN-VC：基于星形生成敌对网络的非平行多对多语音转换

本文提出了一种使用生成对抗网络的变体 StarGAN 进行非平行多对多语音转换（VC）的方法，称为 StarGAN-VC，这种方法可以在不需要平行语音生成器训练的情况下实现并同时学习不同属性域之间的多对多映射，能够快速生成转换的语音信号，并且具有比基于变分自编码 GAN 的最新方法更高的音质和说话者相似度。

Jun, 2018

SLMGAN：利用语音语言模型表示的 GAN 进行无监督零样本语音转换

介绍了一种新的方法 SLMGAN，它利用 SLM（大规模预训练的语音语言模型）在生成对抗网络（GAN）框架中实现鉴别任务，特别是用于语音转换。通过在基于 mel 的鉴别器之上添加基于 SLM 的 WavLM 鉴别器，并结合新设计的 SLM 特征匹配损失函数，实现了一种无监督的零样本语音转换系统，培训过程中不需要文本标签。主观评估结果表明，SLMGAN 在自然度方面优于现有的零样本语音转换模型，并达到了相似性方面的可比较水平，突显了基于 SLM 的鉴别器在相关应用中的潜力。

Jul, 2023

StarGAN-VC2: 基于 StarGAN 的语音转换中重新思考条件方法

本研究提出了一种改进的条件方法 StarGAN-VC2，包含源域和目标域的条件对抗损失和基于调制的条件方法，来使多域语音转换更加准确和自然。实验结果显示，该方法在语音质量和说话人相似度方面优于之前的 StarGAN-VC 模型。

Jul, 2019

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

基于面部驱动的零射声音转换与基于记忆的面音对齐

一个基于面部图像的零样本语音转换任务中，提出了一种新颖的零样本面部语音转换方法，通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换，并引入预训练的零样本语音转换模型，通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。

Sep, 2023

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

SEF-VC 是一种无需说话者嵌入的语音转换模型，通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色，并以非自回归的方式从 HuBERT 语义标记中重建波形，提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性，在生成高质量语音时与目标参考的相似性更好，即使对于非常短的参考讲话。

Dec, 2023

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017