S2VC: 基于自监督预训练表示的任意语音转换框架
本研究提出了 FragmentVC 的方法,通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构,通过目标说话者话语的频谱特征获取目标说话者的细节音频片段,并使用 Transformer 关注机制将其融合到所需的话语中,无需考虑内容和说话者信息的区分,仅基于重构损失进行训练,结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。
Oct, 2020
我们提出了 SelfVC,一种训练策略,通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型,并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练,并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上,SelfVC 在零样本语音转换方面取得了最先进的结果。
Oct, 2023
提出了一种基于声音转换技术的高相似度任意语音转换方法,该方法中使用了自监督学习方法及其提取的 SSL 输入表示,采用对抗训练机制和辅助判别器,通过外部未标注的大型语音语料库,在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明,我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活,同时可以推广至其他 SSL 表示作为输入的 VC 方法,而且无需大量标注数据的支持。
May, 2023
利用自监督 VQ-Wav2vec 表示的任意人说话到固定目标说话的任意对一语音转换问题的序列到序列框架,通过预处理和后处理方法,我们的模型可以具有更好的泛化能力,即使只有 5 分钟的数据。
Oct, 2020
本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC,采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道,提供两个系统版本,均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。
Jun, 2023
本文介绍了一种方法,可以将预先训练的自我监督(SSL)语音表示转移到多种语言中,使用适配器模块加快新语言任务的预训练,并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示,然后应用这些语言表示进行自动语音识别。
Jul, 2021
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
Dec, 2022
本文旨在研究如何使用基于自监督语音表征的语音转换模型匿名处理声音数据,结果表明用这种方法匿名化处理的语音可以维持原始语音低的误识别率,但对于说话人验证存在性能下降的问题。此外,本文的研究还能以匿名的方式提取出健康语言和病理语言之间的区别语音特征。
Apr, 2022
SEF-VC 是一种无需说话者嵌入的语音转换模型,通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色,并以非自回归的方式从 HuBERT 语义标记中重建波形,提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性,在生成高质量语音时与目标参考的相似性更好,即使对于非常短的参考讲话。
Dec, 2023