Adapitch: 基于音调分离无转录数据的多说话人文本到语音自适应

Oct, 2022

Adapitch: 基于音调分离无转录数据的多说话人文本到语音自适应

Adapitch: Adaption Multi-Speaker Text-to-Speech Conditioned on Pitch Disentangling with Untranscribed Data

Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao

TL;DR本篇论文提出 Adapitch 方法，使用无字幕数据对受监督模型进行自适应，并设计了两个自监督模块对文本编码器和 Mel 解码器进行训练，以增强文本和 Mel 的表征能力，同时使用内容分解的有条件 TTS 模块更好地处理合成音中的韵律信息。实验结果表明，Adapitch 比基准方法具有更好的语音合成质量。

Abstract

In this paper, we proposed adapitch, a multi-speaker tts method that makes adaptation of the supervised module with untranscribed data. We design two self supervised modules to train the text encoder and mel deco

multi-speaker tts adapitch unsupervised learning content disentangling voice synthesis

发现论文，激发创造

AdaSpeech 2: 自适应文本转语音技术在无文字数据上的应用

本文提出了 AdaSpeech 2，这是一个自适应 TTS 系统，该系统仅利用未经转录的语音数据进行适应。通过引入 mel 频谱编码器进行语音重构，并将其输出序列约束为原始音素编码器的输出序列，然后仅微调 TTS 解码器。AdaSpeech 2 有两个优点：1）可插拔：我们的系统可以轻松应用于现有训练过的 TTS 模型而无需重新训练。2）有效：我们的系统以与经过转录的 TTS 适应相同数量的未经转录数据实现同等语音质量，并实现比以前的未经转录适应方法更好的语音质量。

Apr, 2021

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

AdaSpeech: 自适应定制语音的文本转语音

提出了一个自适应的 TTS 系统 AdaSpeech，通过使用两个声学编码器处理不同的声学条件，并在 mel-spectrogram 解码器中引入条件层归一化技术来权衡自适应参数和语音质量，该系统在只有几分钟的训练数据的情况下，对个性化语音化的效果较好，适用于商业语音平台。

Mar, 2021

Guided-TTS 2: 一种高质量自适应文本转语音扩散模型，可使用未转录数据

Guided-TTS 2 是一种基于扩散的生成模型，通过无文本数据实现高质量自适应语音合成。它结合了以发言者为条件的扩散模型和以发言者为依赖的音素分类器，借此适应文本到语音。通过无分类器指导的方法在大规模的未转录数据集上训练模型，然后在目标发言者的参考语音上进行微调，只需要 40 秒即可适应不同的语音。Guided-TTS 2 表现出与高质量单发言人 TTS 基准相当的语音质量和发言人相似性，只需要 10 秒未经转录的数据。在多发言人数据集上， Guided-TTS 2 即使在零样本自适应设置下也能胜过自适应 TTS 基线。而且，通过仅仅使用未转录语音就能够适应各种各样的声音，这使得非人类角色的语音也可以自适应合成，例如《指环王》中的咕噜姆。

May, 2022

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Jun, 2022

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率

本文介绍了一种有效的迁移学习框架，用于在文本转语音系统中进行语言适应，重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明，我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音，还能在可获得更多数据的情况下超越传统技术，凸显了我们的高效语言适应框架的潜力。

Jan, 2024