基于稳健解缠变分语音表示学习的零样本语音转换

Mar, 2022

基于稳健解缠变分语音表示学习的零样本语音转换

Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion

Jiachen Lian, Chunlei Zhang, Dong Yu

TL;DR本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Abstract

Traditional studies on voice conversion (VC) have made progress with parallel training data and known speakers. Good voice conversion quality is obtained by exploring better alignment modules or expressive mappin

voice conversion self-supervised disentangled speech representation learning zero-shot sequential variational autoencoder

发现论文，激发创造

通过分解表示学习改进零样本语音风格转换

本研究提出了一种基于解缠表示学习的零样本语音转换方法，通过在输入语音的内容嵌入和目标样式嵌入之间进行组合来实现对新声音的转换，可以在无先验知识和非并行数据的情况下完成，方法在 VCTK 数据集上进行验证，并在许多对多和零样本实验上展现出了最新的标志性结果。

Mar, 2021

VQMIVC: 一种基于向量量化和互信息的无监督语音表示解缠方法，用于一次成音转换

本文提出通过使用向量量化 (VQ) 进行内容编码，并在训练期间引入互信息 (MI) 作为相关度度量，从而在无监督的情况下实现内容、说话人和音高表示的适当分离，以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时，捕捉目标说话人的特征，实现了比现有单次语音转换系统更高的语音自然度和说话人相似度。

Jun, 2021

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

基于条件 DSVAE 的零样本语音转换改进

通过条件的 DSVAE 模型，将内容信息的分离，并在语音转换方面实现更好的性能。

May, 2022

SelfVC：自我转换的迭代细化音频转换

我们提出了 SelfVC，一种训练策略，通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型，并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练，并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上，SelfVC 在零样本语音转换方面取得了最先进的结果。

Oct, 2023

SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

SEF-VC 是一种无需说话者嵌入的语音转换模型，通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色，并以非自回归的方式从 HuBERT 语义标记中重建波形，提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性，在生成高质量语音时与目标参考的相似性更好，即使对于非常短的参考讲话。

Dec, 2023

非平行序列到序列语音转换系统中的语言和说话人分离表征

本文提出了一种使用非并行训练数据的序列到序列（seq2seq）语音转换方法，该方法使用编码器 - 解码器神经网络框架构建模型，从声学特征中提取解交叉的语言和说话者表示，并通过保留源话语的语言表示，将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明，该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。

Jun, 2019

基于面部驱动的零射声音转换与基于记忆的面音对齐

一个基于面部图像的零样本语音转换任务中，提出了一种新颖的零样本面部语音转换方法，通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换，并引入预训练的零样本语音转换模型，通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。

Sep, 2023

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023