Matcha-TTS：具有条件流匹配的快速 TTS 架构

Sep, 2023

Matcha-TTS：具有条件流匹配的快速 TTS 架构

Matcha-TTS: A fast TTS architecture with conditional flow matching

Shivam Mehta, Ruibo Tu, Jonas Beskow, Éva Székely, Gustav Eje Henter

TL;DR我们介绍了 Matcha-TTS，一种新的编码器 - 解码器架构，用于快速 TTS 声学建模，使用最优传输条件流匹配（OT-CFM）进行训练。这产生了一种基于 ODE 的解码器，能够在比使用分数匹配训练的模型更少的合成步骤中输出高质量音频。谨慎的设计选择还确保每个合成步骤的运行速度快。该方法是概率的、非自回归的，并且能够在没有外部对齐的情况下学习说话。与强大的预训练基线模型相比，Matcha-TTS 系统具有最小的内存占用量，在长篇讲话中与最快模型的速度相媲美，并在听力测试中获得最高的主观评分。请查看此链接以获取音频示例、代码和预训练模型。

Abstract

We introduce matcha-tts, a new encoder-decoder architecture for speedy TTS acoustic modelling, trained using optimal-transport conditional flow m

matcha-tts acoustic modelling optimal-transport conditional flow matching ode-based decoder speech synthesis

发现论文，激发创造

基于流匹配的语音和手势综合

利用自然语言处理技术，本文提出了一种新颖的统一架构，用于联合合成语音音质和基于骨骼的 3D 手势运动，通过优化传输条件流匹配（OT-CFM）进行训练。与现有技术相比，所提出的架构更简单，内存占用更小，能够捕捉语音和手势的联合分布，并在一个单一过程中生成两种模态。同时，新的训练机制在比以前更少的步骤（网络评估）中实现更好的合成质量。与现有基准相比，单模态和多模态主观测试证明了改进的语音自然度、手势人类类似度和跨模态的适宜性。

Oct, 2023

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

轻量级零样本文本转语音与适配器混合模型

基于大规模模型的零样本文本转语音（TTS）方法的进步展示了高保真度的说话者特征重现，但这些模型过于庞大以至于无法实际日常使用。我们提出了一种使用混合适配器（MoA）的轻量级零样本 TTS 方法。我们的方法将 MoA 模块整合到非自回归 TTS 模型的解码器和方差适配器中，通过根据说话者嵌入选择与说话者特征相关的适配器，以零样本方式增强了适应各种说话者的能力。我们的方法以最小的附加参数实现了高质量的语音合成。通过客观和主观评估，我们确认我们的方法在比基准少 40% 的参数下以 1.9 倍的推理速度实现了更好的性能。可以在我们的演示页面（此 https 网址）上找到音频样本。

Jul, 2024

LightSpeech: 基于神经架构搜索的轻量级快速语音合成

本文提出了一种名为 LightSpeech 的 TTS 模型，该模型通过利用神经架构搜索自动设计出轻量级的、高效的模型，并在不损失语音质量的情况下，将模型压缩率提高了 15 倍、推断速度提高了 6.5 倍。

Feb, 2021

FastSpeech 2: 快速高質量的端到端文本轉語音

提出了 FastSpeech 2，直接使用语音波形从文本中生成语音，并且通过使用更多的变化信息作为条件输入，解决了非自回归文本到语音模型中的一对多映射问题，从而实现更高的语音质量。

Jun, 2020

基于流模型语音转换实现跨语言语音合成以提高发音

该论文介绍了一种端到端的跨语言文字转语音方法，使用基于非注意力 Tacotron 架构的模型，并通过使用条件为说话人身份的归一化流网络，实现 TTS 和语音转换（VC）的可同时进行，该方法可以在低资源情景下获得良好效果。

Oct, 2022

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。