BASE TTS：基于 100K 小时数据构建亿参数的文本转语音模型的经验教训

Feb, 2024

BASE TTS：基于 100K 小时数据构建亿参数的文本转语音模型的经验教训

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar...

TL;DR我们介绍了一个名为 BASE TTS 的文本转语音 (TTS) 模型，它是迄今为止最大的 TTS 模型，以 100K 小时的公共领域语音数据进行训练，在语音自然度方面取得了最新的最佳效果。

Abstract

We introduce a text-to-speech (TTS) model called base tts, which stands for $\textbf{B}$ig $\textbf{A}$daptive $\textbf{S}$treamable TTS with $\textbf{E}$mergent abilities. →

text-to-speech base tts autoregressive transformer speechcodes emergent abilities

发现论文，激发创造

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的 TTS 系统 Mega-TTS，训练了 20k 小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

深度语音 3：使用卷积序列学习扩展语音合成

Deep Voice 3 是一种全卷积自注意神经文本转语音系统，可以很好地匹配目前最先进的神经语音合成系统的自然度，同时训练速度快于十倍。通过在超过 2000 位演讲者的超过 800 小时的音频数据上进行训练，实现了 TTS 数据集规模的前所未有的扩展。同时，我们描述了如何缩放指向注意的语音合成网络的推断，以在单个 GPU 服务器上每天缩放到 1000 万个查询，并比较了几种不同的波形综合方法。

Oct, 2017

AdaSpeech: 自适应定制语音的文本转语音

提出了一个自适应的 TTS 系统 AdaSpeech，通过使用两个声学编码器处理不同的声学条件，并在 mel-spectrogram 解码器中引入条件层归一化技术来权衡自适应参数和语音质量，该系统在只有几分钟的训练数据的情况下，对个性化语音化的效果较好，适用于商业语音平台。

Mar, 2021

元学习文本转语音在 7000 多种语言中的应用

通过大规模多语言预训练和元学习，我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统，并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型，我们旨在为语言资源有限的社区提供支持，并在语音技术领域促进进一步的创新。

Jun, 2024

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与 FastPitch 和 HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为 13 种语言训练和评估 TTS 模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。

Nov, 2022

MnTTS: 一种开源的蒙古文语音合成数据集及相关基准模型

这篇论文介绍了一个高质量的蒙古文开源文本到语音（TTS）综合数据集，这是第一个公开可用的数据集，为蒙古 TTS 应用在学术界和工业界的推广做出了贡献。该数据集共包括了约 8 小时的由 22 岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于 FastSpeech2 模型和 HiFi-GAN 声码器非自回归基线系统的经验和评估结果，该系统在 MOS 评分上达到 4 以上且 RTF 约为 $3.30 imes10^{-1}$，可以实际应用。

Sep, 2022

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Apr, 2019