Pheme：高效且会话式的语音生成

Jan, 2024

Pheme: Efficient and Conversational Speech Generation

Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić

TL;DR在这项研究中，我们介绍了 Pheme 模型系列，它提供了紧凑而高性能的模型，能够并行生成自然对话式语音，并且可以高效地在较小规模的对话数据上进行训练，降低数据需求 10 倍以上，但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单的教师 - 学生蒸馏，在预训练的 Pheme 检查点的基础上，通过仅依靠更大的教师模型生成的合成语音，在单说话者设置上获得声音质量的显著改进。在线提供音频样本和预训练模型。

Abstract

In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech gene

speech generation conversational systems tts models real-time usage teacher-student distillation

发现论文，激发创造

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

EfficientSpeech: 一个本地化文本到语音模型

本文提出了一种名为 EfficientSpeech 的神经文本转语音模型，它可以在资源受限且没有互联网访问的边缘设备上使用 ARM CPU 实时合成语音，并且相比现代紧凑型模型，参数和计算量仅为 1％，可实现平均 104.3 倍的实时因素，人类评估显示与 FastSpeech2 相比，音频质量仅略有下降。

May, 2023

语音增强的语言建模用于文本到语音合成

我们提出了一种声学增强的语言建模方法，通过使用语音单元预测中的错误积累来改善 TTS 模型的性能，通过自我监督表示来作为自回归语言模型的训练目标，并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器，以减少非自回归训练中的错误传播，客观和主观评估验证了我们提出方法的有效性。

Jun, 2024

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Mar, 2024

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

SoundStorm: 高效并行音频生成

SoundStorm is a non-autoregressive audio generation model that uses semantic tokens and bidirectional attention to efficiently generate high-quality audio with consistency, comparable with autoregressive generation while being two orders of magnitude faster.

May, 2023

CM-TTS：通过加权采样器和一致性模型提高实时文本合成效率

通过引入连续时间扩散模型，CM-TTS 在不需要对抗训练或预训练模型依赖的情况下，在较少的步骤中实现了高质量的语音合成，通过动态概率设计加权采样器来确保整个训练过程的无偏学习。实验证实了 CM-TTS 相对于现有的单步语音合成系统的卓越性能，代表了该领域的重大进展。

Mar, 2024