Diff-HierVC: 基于扩散的层次化语音转换技术，具备鲁棒的声调生成和掩蔽式先验用于零样本说话人自适应

Nov, 2023

Diff-HierVC: 基于扩散的层次化语音转换技术，具备鲁棒的声调生成和掩蔽式先验用于零样本说话人自适应

Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation

PDF

Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee

TL;DRDiff-HierVC 是一种基于两个扩散模型的分层语音转换系统，通过 DiffPitch 有效地生成具有目标音色的 F0，然后使用 DiffVoice 将语音转换为目标音色，通过源 - 滤波器编码器进行信息分离，并在 DiffVoice 中使用转换后的 Mel 频谱图作为数据驱动先验，从而提高语音风格转换能力，通过扩散模型中的遮罩先验，提高说话者适应质量。实验结果验证了 Diff-HierVC 在音高生成和语音风格转换性能上的优越性，在零样本语音转换场景中，其 CER 为 0.83％，EER 为 3.29％。

Abstract

Although voice conversion (VC) systems have shown a remarkable ability to transfer voice style, existing methods still have an inaccurate pitch and low speaker adaptation quality. To address these challenges, we introduce →

voice conversion diff-hiervc diffusion models pitch generation voice style transfer

发现论文，激发创造

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

HierVST: 分层自适应零样本语音风格转换

本研究提出了一种分层适应性端到端的零样本语音风格转换模型，通过使用分层变分推断和自监督表示在仅使用语音数据集训练模型的情况下，实现了新的发声者的语音风格转换。该模型采用分层适应性生成器进行音调表示和波形音频逐步生成，利用无条件生成来提高声音相对的声学能力。实验结果表明，在零样本语音风格转换场景中，本方法优于其他语音风格转换模型。

Jul, 2023

DiffSVC：一种用于歌声转换的扩散概率模型

本文提出 DiffSVC，一种基于去噪扩散概率模型的 SVC 系统，在该系统中，使用语音后验谱图（PPG）等特征进行内容建模，并辅助使用基频和响度特征来辅助去噪。实验表明，DiffSVC 在自然度和语音相似度方面均优于当前最先进的 SVC 方法。

May, 2021

离散无监督单元实现的语音风格转换

该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法，不仅能够转换说话人的音色，而且还能够转换韵律及音调等语音韵律信息，并且在定量和定性评估中优于其他方法。

Dec, 2022

音素幻像器：通过集合扩展的单次语音转换

提出了一种新颖的方法 “音素幻觉生成器”，它可以在仅有目标说话者短音频数据的情况下，生成多样且高保真度的目标音素，从而在语音转换中实现高逼真度和说话者相似度的平衡。

Aug, 2023

基于面部驱动的零射声音转换与基于记忆的面音对齐

一个基于面部图像的零样本语音转换任务中，提出了一种新颖的零样本面部语音转换方法，通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换，并引入预训练的零样本语音转换模型，通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。

Sep, 2023

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

DDDM-VC: 分离降噪扩散模型与解缠表示及混合先验用于可验证的鲁棒语音转换

本文提出一种基于 DDDMs 和分离表示的生成模型，可以控制每个属性的风格，实现语音属性的解耦和控制，并进一步提出了先验混合的方法用于鲁棒语音风格转换。实验结果表明，我们的方法优于公开的 VC 模型，并提供了鲁棒的生成性能。

May, 2023

SelfVC：自我转换的迭代细化音频转换

我们提出了 SelfVC，一种训练策略，通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型，并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练，并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上，SelfVC 在零样本语音转换方面取得了最先进的结果。

Oct, 2023

SEF-VC：无说话人嵌入的零样本声音转换与交叉注意力

SEF-VC 是一种无需说话者嵌入的语音转换模型，通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色，并以非自回归的方式从 HuBERT 语义标记中重建波形，提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性，在生成高质量语音时与目标参考的相似性更好，即使对于非常短的参考讲话。

Dec, 2023