仅使用最近邻实现语音转换

May, 2023

Voice Conversion With Just Nearest Neighbors

Matthew Baas, Benjamin van Niekerk, Herman Kamper

TL;DR本文提出了一种基于 k 邻近算法的任意声音转换方法（kNN-VC），并通过客观及主观评估显示其声音相似度较高，同时具有与现有方法相当的可理解性分数，可用于音频合成。

Abstract

Any-to-any voice conversion aims to transform source speech into a target voice with just a few examples of the target speaker as a reference. Recent methods produce convincing conversions, but at the cost of increased complexity -- making results difficult to reproduce and build on. I

voice conversion k-nearest neighbors self-supervised representations speaker similarity vocoder

发现论文，激发创造

语音转换给口吃的语言，乐器，未知语言和文本描述的声音转换

使用 k 最近邻声音转换模型，调查其在非标准下游语音转换任务中的表现，包括口吃声转换、跨语言声音转换、乐器转换和文本转语音转换。与基准线方法相比，k 最近邻声音转换在口吃声转换和跨语言声音转换中保持高性能，但在乐器转换和文本转语音转换任务中表现有所不同。然而，这表明声音转换模型，尤其是 k 最近邻声音转换，在各种非标准下游任务中逐渐具有应用价值，但在与训练分布相差较大的样本上仍存在一些限制。

Oct, 2023

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

S2VC: 基于自监督预训练表示的任意语音转换框架

本文介绍了几种任意语音转换方法（例如 AUTOVC、AdaINVC 和 FragmentVC）以及一种新方法 S2VC，该方法利用自监督学习（SSL）特征作为源和目标特征进行 VC 模型，该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型，表明 SSL 特征在改进 VC 方面具有巨大潜力。

Apr, 2021

利用最近邻对比学习生成语音序列嵌入

我们介绍了一个基于自监督的音频表示的简单神经编码器架构，该架构可以使用无监督对比学习目标进行训练，并通过 k - 最近邻搜索获得它的正样本，从而可以在多个语言中应用，可用于随机语音序列的按示例查询和口头术语的发现，实验证明该方法在五种语言上显著推动了技术发展，并建立了一个基准测试以便未来监测领域的进展。

Apr, 2022

SelfVC：自我转换的迭代细化音频转换

我们提出了 SelfVC，一种训练策略，通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型，并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练，并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上，SelfVC 在零样本语音转换方面取得了最先进的结果。

Oct, 2023

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

ALO-VC：任意低延迟单次语音转换

本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC，采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道，提供两个系统版本，均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。

Jun, 2023

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Jun, 2020

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

本研究提出了 FragmentVC 的方法，通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构，通过目标说话者话语的频谱特征获取目标说话者的细节音频片段，并使用 Transformer 关注机制将其融合到所需的话语中，无需考虑内容和说话者信息的区分，仅基于重构损失进行训练，结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。

Oct, 2020

离散无监督单元实现的语音风格转换

该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法，不仅能够转换说话人的音色，而且还能够转换韵律及音调等语音韵律信息，并且在定量和定性评估中优于其他方法。

Dec, 2022