HierVST: 分层自适应零样本语音风格转换

Jul, 2023

HierVST: 分层自适应零样本语音风格转换

HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer

Sang-Hoon Lee, Ha-Yeong Choi, Hyung-Seok Oh, Seong-Whan Lee

TL;DR本研究提出了一种分层适应性端到端的零样本语音风格转换模型，通过使用分层变分推断和自监督表示在仅使用语音数据集训练模型的情况下，实现了新的发声者的语音风格转换。该模型采用分层适应性生成器进行音调表示和波形音频逐步生成，利用无条件生成来提高声音相对的声学能力。实验结果表明，在零样本语音风格转换场景中，本方法优于其他语音风格转换模型。

Abstract

Despite rapid progress in the voice style transfer (VST) field, recent zero-shot vst systems still lack the ability to transfer the voice style of a novel speaker. In this paper, we present HierVST, a hierarchica

voice style transfer zero-shot vst systems hierarchical adaptive end-to-end model hierarchical variational inference unconditional generation

发现论文，激发创造

通过分解表示学习改进零样本语音风格转换

本研究提出了一种基于解缠表示学习的零样本语音转换方法，通过在输入语音的内容嵌入和目标样式嵌入之间进行组合来实现对新声音的转换，可以在无先验知识和非并行数据的情况下完成，方法在 VCTK 数据集上进行验证，并在许多对多和零样本实验上展现出了最新的标志性结果。

Mar, 2021

HierSpeech++：通过分层变分推断在语音的语义和声学表示之间建立联系以进行零样本语音合成

HierSpeech++ 是一种快速而强大的零样本语音合成器，适用于文本转语音（TTS）和语音转换（VC），通过采用层次化语音合成框架，显著提高了合成语音的健壮性、表达力和自然度，在零样本语音合成场景中实现了人类级质量。

Nov, 2023

Diff-HierVC: 基于扩散的层次化语音转换技术，具备鲁棒的声调生成和掩蔽式先验用于零样本说话人自适应

Diff-HierVC 是一种基于两个扩散模型的分层语音转换系统，通过 DiffPitch 有效地生成具有目标音色的 F0，然后使用 DiffVoice 将语音转换为目标音色，通过源 - 滤波器编码器进行信息分离，并在 DiffVoice 中使用转换后的 Mel 频谱图作为数据驱动先验，从而提高语音风格转换能力，通过扩散模型中的遮罩先验，提高说话者适应质量。实验结果验证了 Diff-HierVC 在音高生成和语音风格转换性能上的优越性，在零样本语音转换场景中，其 CER 为 0.83％，EER 为 3.29％。

Nov, 2023

无端到端语音合成中无需超参数搜索的损失折衷自动调整

本文介绍了一种基于 VITS 的模型的无需搜索的优化框架，它可以平衡损失，并将解码器的能力提高到最大，从而实现了无需搜索找到最佳平衡点。通过该框架，在零样本语音合成和语音转换任务中取得了最优表现。

May, 2023

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

使用半监督风格提取器和分层建模提高跨说话人风格转移的韵律表现在语音合成中

提出了一种强度可控半监督风格提取器，用于解开语音中的风格、内容和音色，同时设计了分层韵律预测器以提高其音韵建模，并提出跨发话人循环一致性损失作为训练阶段辅助模型学习未见过的风格 - 音色组合，并展示它的效果优于基线方法。

Mar, 2023