FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

Oct, 2020

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention

Yist Y. Lin, Chung-Ming Chien, Jheng-Hao Lin, Hung-yi Lee, Lin-shan Lee

TL;DR本研究提出了 FragmentVC 的方法，通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构，通过目标说话者话语的频谱特征获取目标说话者的细节音频片段，并使用 Transformer 关注机制将其融合到所需的话语中，无需考虑内容和说话者信息的区分，仅基于重构损失进行训练，结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。

Abstract

Any-to-any voice conversion aims to convert the voice from and to any speakers even unseen during training, which is much more challenging compared to one-to-one or many-to-many tasks, but much more attractive in real-world scenarios. In this paper we proposed →

voice conversion wav2vec 2.0 fragmentvc attention mechanism speaker verification

发现论文，激发创造

S2VC: 基于自监督预训练表示的任意语音转换框架

本文介绍了几种任意语音转换方法（例如 AUTOVC、AdaINVC 和 FragmentVC）以及一种新方法 S2VC，该方法利用自监督学习（SSL）特征作为源和目标特征进行 VC 模型，该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型，表明 SSL 特征在改进 VC 方面具有巨大潜力。

Apr, 2021

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

SelfVC：自我转换的迭代细化音频转换

我们提出了 SelfVC，一种训练策略，通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型，并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练，并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上，SelfVC 在零样本语音转换方面取得了最先进的结果。

Oct, 2023

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

SEF-VC 是一种无需说话者嵌入的语音转换模型，通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色，并以非自回归的方式从 HuBERT 语义标记中重建波形，提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性，在生成高质量语音时与目标参考的相似性更好，即使对于非常短的参考讲话。

Dec, 2023

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017

ALO-VC：任意低延迟单次语音转换

本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC，采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道，提供两个系统版本，均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。

Jun, 2023

AGAIN-VC: 一种使用激活引导和自适应实例归一化的一次性语音转换

本文提出了基于激活引导和自适应实例标准化的 AGAIN-VC 系统，改进了合成质量和说话人相似性之间的权衡问题，表现最佳。

Oct, 2020

离散无监督单元实现的语音风格转换

该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法，不仅能够转换说话人的音色，而且还能够转换韵律及音调等语音韵律信息，并且在定量和定性评估中优于其他方法。

Dec, 2022

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019