仅使用最近邻实现语音转换
使用 k 最近邻声音转换模型,调查其在非标准下游语音转换任务中的表现,包括口吃声转换、跨语言声音转换、乐器转换和文本转语音转换。与基准线方法相比,k 最近邻声音转换在口吃声转换和跨语言声音转换中保持高性能,但在乐器转换和文本转语音转换任务中表现有所不同。然而,这表明声音转换模型,尤其是 k 最近邻声音转换,在各种非标准下游任务中逐渐具有应用价值,但在与训练分布相差较大的样本上仍存在一些限制。
Oct, 2023
本文提出了一种使用仅一次源和目标说话者示例语音,通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法,无需事先见过源和目标说话者训练模型即可执行声音转换,目标语音及说话者的相似性得到了客观和主观的评估,同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。
Apr, 2019
本文介绍了几种任意语音转换方法(例如 AUTOVC、AdaINVC 和 FragmentVC)以及一种新方法 S2VC,该方法利用自监督学习(SSL)特征作为源和目标特征进行 VC 模型,该方法的客观评价和主观评价都显示出优于以 PPG 为源特征的模型,表明 SSL 特征在改进 VC 方面具有巨大潜力。
Apr, 2021
我们介绍了一个基于自监督的音频表示的简单神经编码器架构,该架构可以使用无监督对比学习目标进行训练,并通过 k - 最近邻搜索获得它的正样本,从而可以在多个语言中应用,可用于随机语音序列的按示例查询和口头术语的发现,实验证明该方法在五种语言上显著推动了技术发展,并建立了一个基准测试以便未来监测领域的进展。
Apr, 2022
我们提出了 SelfVC,一种训练策略,通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型,并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练,并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上,SelfVC 在零样本语音转换方面取得了最先进的结果。
Oct, 2023
探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
Apr, 2024
本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC,采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道,提供两个系统版本,均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。
Jun, 2023
本研究提出了 FragmentVC 的方法,通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构,通过目标说话者话语的频谱特征获取目标说话者的细节音频片段,并使用 Transformer 关注机制将其融合到所需的话语中,无需考虑内容和说话者信息的区分,仅基于重构损失进行训练,结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。
Oct, 2020
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
Dec, 2022