SelfVC：自我转换的迭代细化音频转换

Oct, 2023

SelfVC：自我转换的迭代细化音频转换

SelfVC: Voice Conversion With Iterative Refinement using Self Transformations

Paarth Neekhara, Shehzeen Hussain, Rafael Valle, Boris Ginsburg, Rishabh Ranjan...

TL;DR我们提出了 SelfVC，一种训练策略，通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型，并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练，并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上，SelfVC 在零样本语音转换方面取得了最先进的结果。

Abstract

We propose SelfVC, a training strategy to iteratively improve a voice conversion model with self-synthesized examples. Previous efforts on voice conversion focus on explicitly disentangling speech representations to separately encode speaker characteristics and linguistic content. Howe

voice conversion self-synthesized examples entangled speech representations ssl representations self-synthesized training

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

S2VC: 基于自监督预训练表示的任意语音转换框架

本文介绍了几种任意语音转换方法（例如 AUTOVC、AdaINVC 和 FragmentVC）以及一种新方法 S2VC，该方法利用自监督学习（SSL）特征作为源和目标特征进行 VC 模型，该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型，表明 SSL 特征在改进 VC 方面具有巨大潜力。

Apr, 2021

离散无监督单元实现的语音风格转换

该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法，不仅能够转换说话人的音色，而且还能够转换韵律及音调等语音韵律信息，并且在定量和定性评估中优于其他方法。

Dec, 2022

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

SEF-VC 是一种无需说话者嵌入的语音转换模型，通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色，并以非自回归的方式从 HuBERT 语义标记中重建波形，提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性，在生成高质量语音时与目标参考的相似性更好，即使对于非常短的参考讲话。

Dec, 2023

自监督语音表示保留语音特征同时实现匿名化

本文旨在研究如何使用基于自监督语音表征的语音转换模型匿名处理声音数据，结果表明用这种方法匿名化处理的语音可以维持原始语音低的误识别率，但对于说话人验证存在性能下降的问题。此外，本文的研究还能以匿名的方式提取出健康语言和病理语言之间的区别语音特征。

Apr, 2022

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

本研究提出了 FragmentVC 的方法，通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构，通过目标说话者话语的频谱特征获取目标说话者的细节音频片段，并使用 Transformer 关注机制将其融合到所需的话语中，无需考虑内容和说话者信息的区分，仅基于重构损失进行训练，结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。

Oct, 2020

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020