AdaSpeech 2: 自适应文本转语音技术在无文字数据上的应用

Apr, 2021

AdaSpeech 2: 自适应文本转语音技术在无文字数据上的应用

AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data

Yuzi Yan, Xu Tan, Bohan Li, Tao Qin, Sheng Zhao...

TL;DR本文提出了 AdaSpeech 2，这是一个自适应 TTS 系统，该系统仅利用未经转录的语音数据进行适应。通过引入 mel 频谱编码器进行语音重构，并将其输出序列约束为原始音素编码器的输出序列，然后仅微调 TTS 解码器。AdaSpeech 2 有两个优点：1）可插拔：我们的系统可以轻松应用于现有训练过的 TTS 模型而无需重新训练。2）有效：我们的系统以与经过转录的 TTS 适应相同数量的未经转录数据实现同等语音质量，并实现比以前的未经转录适应方法更好的语音质量。

Abstract

Text to speech (tts) is widely used to synthesize personal voice for a target speaker, where a well-trained source tts model is fine-tuned with few paired adaptation data (speech and its transcripts) on this targ

tts adaspeech 2 adaptive tts untranscribed speech data speech reconstruction

发现论文，激发创造

AdaSpeech: 自适应定制语音的文本转语音

提出了一个自适应的 TTS 系统 AdaSpeech，通过使用两个声学编码器处理不同的声学条件，并在 mel-spectrogram 解码器中引入条件层归一化技术来权衡自适应参数和语音质量，该系统在只有几分钟的训练数据的情况下，对个性化语音化的效果较好，适用于商业语音平台。

Mar, 2021

Guided-TTS 2: 一种高质量自适应文本转语音扩散模型，可使用未转录数据

Guided-TTS 2 是一种基于扩散的生成模型，通过无文本数据实现高质量自适应语音合成。它结合了以发言者为条件的扩散模型和以发言者为依赖的音素分类器，借此适应文本到语音。通过无分类器指导的方法在大规模的未转录数据集上训练模型，然后在目标发言者的参考语音上进行微调，只需要 40 秒即可适应不同的语音。Guided-TTS 2 表现出与高质量单发言人 TTS 基准相当的语音质量和发言人相似性，只需要 10 秒未经转录的数据。在多发言人数据集上， Guided-TTS 2 即使在零样本自适应设置下也能胜过自适应 TTS 基线。而且，通过仅仅使用未转录语音就能够适应各种各样的声音，这使得非人类角色的语音也可以自适应合成，例如《指环王》中的咕噜姆。

May, 2022

Adapitch: 基于音调分离无转录数据的多说话人文本到语音自适应

本篇论文提出 Adapitch 方法，使用无字幕数据对受监督模型进行自适应，并设计了两个自监督模块对文本编码器和 Mel 解码器进行训练，以增强文本和 Mel 的表征能力，同时使用内容分解的有条件 TTS 模块更好地处理合成音中的韵律信息。实验结果表明，Adapitch 比基准方法具有更好的语音合成质量。

Oct, 2022

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

Ada-TTA：自适应高质量文本到语音头像合成

本文提出 Adaptive Text-to-Talking Avatar（Ada-TTA），该方法在语音识别的背景下，设计了通用的零样本多扬声器 TTS 模型，并采用神经渲染技术来实现逼真的音频驱动的说话面部视频生成，实现了身份保护言语和逼真的说话人视频。

Jun, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024