自适应的自监督语音表示模型条件下的抗噪零样本语音合成

Jan, 2024

自适应的自监督语音表示模型条件下的抗噪零样本语音合成

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters

PDF

Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix...

TL;DR基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而，当参考语音包含噪声时，这种方法的语音合成质量会降低。本文中，我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中，并使用带噪声的参考语音对其进行微调，同时采用了语音增强前端以进一步提高性能。通过客观和主观评估，我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性，并且与语音增强相结合有效地工作。

Abstract

The zero-shot text-to-speech (TTS) method, based on speaker embeddings extracted from reference speech using self-supervised learning (SSL) speech representations, can reproduce speaker characteristics very accur

zero-shot tts speaker embeddings self-supervised learning noise-robust speech synthesis quality

发现论文，激发创造

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

基于流匹配的零样本 TTS 的噪声稳健性研究

对于从噪声音频提示生成的语音合成，我们研究了多种策略来提高其质量，包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等，实验证明相较于应用语音增强到音频提示的方法，我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。

Jun, 2024

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

关于使用自监督语音表示在自发语音合成中的研究

本研究探讨了自监督学习在 spontaneous TTS 和 MOS 预测中的适用性，并在实验中比较了 6 种不同的 SSL 及每种模型中的不同层次，旨在深入了解 SSL 的应用。

Jul, 2023

低资源情景下 TTS 系统的语言适应初探

本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力，研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响，并且发现相对于配对数据，仅音频数据在微调中并不总是最优选择。同时，研究还包括了说话人相似度、语言识别以及预测的 MOS。

Jun, 2024

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021