SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

Dec, 2023

SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

Junjie Li, Yiwei Guo, Xie Chen, Kai Yu

TL;DRSEF-VC 是一种无需说话者嵌入的语音转换模型，通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色，并以非自回归的方式从 HuBERT 语义标记中重建波形，提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性，在生成高质量语音时与目标参考的相似性更好，即使对于非常短的参考讲话。

Abstract

zero-shot voice conversion (VC) aims to transfer the source speaker timbre to arbitrary unseen target speaker timbre, while keeping the li

zero-shot voice conversion sef-vc speaker timbre cross-attention mechanism speech quality

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

SelfVC：自我转换的迭代细化音频转换

我们提出了 SelfVC，一种训练策略，通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型，并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练，并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上，SelfVC 在零样本语音转换方面取得了最先进的结果。

Oct, 2023

基于面部驱动的零射声音转换与基于记忆的面音对齐

一个基于面部图像的零样本语音转换任务中，提出了一种新颖的零样本面部语音转换方法，通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换，并引入预训练的零样本语音转换模型，通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。

Sep, 2023

AttS2S-VC：具有注意力机制和上下文保留机制的序列到序列语音转换

本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习（Seq2Seq）方法，用于语音转换（VC）任务。该方法稳定加速了训练过程，并且不需要预先对源和目标语音数据进行时间对齐。在实验中，与高斯混合模型（GMM）和循环神经网络（RNN）相比，我们提出的 VC 框架仅需一天时间训练，可以达到接近于 RNN 提供的语音合成质量的水平。

Nov, 2018

StarGAN-ZSVC：低资源环境下的零样本语音转换

本文提出了一个基于生成性对抗网络的语音转换模型，该模型可以在零阶设置下使用未见过的讲话者，并且在实时或更快的速度下运行，与其他语音转换技术相比，该模型在小量数据的零阶设置下表现优异。

May, 2021

Zero-shot 伪造语音进行说话人去识别

提出了一种名为 DeID-VC 的系统，利用变分自编码器（VAE）生成伪人声以保护用户的语音隐私，可在发言者或话语层面分配独特的伪人声，并通过两个新的学习目标缩小了训练和推理之间的差距，实验结果表明与基线相比，DeID-VC 方法在可读性和去识别性方面都有显著改善。

Sep, 2022

S2VC: 基于自监督预训练表示的任意语音转换框架

本文介绍了几种任意语音转换方法（例如 AUTOVC、AdaINVC 和 FragmentVC）以及一种新方法 S2VC，该方法利用自监督学习（SSL）特征作为源和目标特征进行 VC 模型，该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型，表明 SSL 特征在改进 VC 方面具有巨大潜力。

Apr, 2021

利用声学上下文调节、话语嵌入和参考编码器实现零样本基于文本的语音编辑

本文研究了基于文本声音编辑技术（Text-based voice editing，TBVE）的新方法，通过使用预训练说话人验证嵌入和联合训练参考编码器的方法，增强了语音中的说话人身份和韵律连续性。

Oct, 2022

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

本研究提出了 FragmentVC 的方法，通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构，通过目标说话者话语的频谱特征获取目标说话者的细节音频片段，并使用 Transformer 关注机制将其融合到所需的话语中，无需考虑内容和说话者信息的区分，仅基于重构损失进行训练，结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。

Oct, 2020

AutoCycle-VC: 以瓶颈独立为目标的零样本跨语言语音转换

提出了一个简单而强大的零样本语音转换系统，使用了循环结构和梅尔频谱预处理，通过循环一致性损失考虑目标和源说话者之间的转换，同时利用堆叠的随机排序梅尔频谱和标签平滑方法在说话者编码器训练过程中提取不受时间约束的全局说话者表示，模型在主观和客观评估中表现优于现有的最先进结果，并可促进跨语言语音转换并提高合成语音的质量。

Oct, 2023