AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

Apr, 2022

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios

Yihan Wu, Xu Tan, Bohan Li, Lei He, Sheng Zhao...

TL;DR本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Abstract

Adaptive text to speech (TTS) can synthesize new voices in zero-shot scenarios efficiently, by using a well-trained source TTS model without adapting it on the speech data of new speakers. Considering seen and unseen speakers have diverse characteristics, →

text to speech zero-shot adaptive speaker characteristics speech synthesis supervision loss

发现论文，激发创造

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

AdaSpeech: 自适应定制语音的文本转语音

提出了一个自适应的 TTS 系统 AdaSpeech，通过使用两个声学编码器处理不同的声学条件，并在 mel-spectrogram 解码器中引入条件层归一化技术来权衡自适应参数和语音质量，该系统在只有几分钟的训练数据的情况下，对个性化语音化的效果较好，适用于商业语音平台。

Mar, 2021

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

Ada-TTA：自适应高质量文本到语音头像合成

本文提出 Adaptive Text-to-Talking Avatar（Ada-TTA），该方法在语音识别的背景下，设计了通用的零样本多扬声器 TTS 模型，并采用神经渲染技术来实现逼真的音频驱动的说话面部视频生成，实现了身份保护言语和逼真的说话人视频。

Jun, 2023

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的 TTS 系统 Mega-TTS，训练了 20k 小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

AdaSpeech 2: 自适应文本转语音技术在无文字数据上的应用

本文提出了 AdaSpeech 2，这是一个自适应 TTS 系统，该系统仅利用未经转录的语音数据进行适应。通过引入 mel 频谱编码器进行语音重构，并将其输出序列约束为原始音素编码器的输出序列，然后仅微调 TTS 解码器。AdaSpeech 2 有两个优点：1）可插拔：我们的系统可以轻松应用于现有训练过的 TTS 模型而无需重新训练。2）有效：我们的系统以与经过转录的 TTS 适应相同数量的未经转录数据实现同等语音质量，并实现比以前的未经转录适应方法更好的语音质量。

Apr, 2021

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023