Nix-TTS: 模块化蒸馏轻量级端到端文本转语音

Mar, 2022

Nix-TTS: 模块化蒸馏轻量级端到端文本转语音

Nix-TTS: Lightweight and End-to-End Text-to-Speech via Module-wise Distillation

Rendi Chevi, Radityo Eko Prasojo, Alham Fikri Aji, Andros Tjandra, Sakriani Sakti

TL;DR通过知识蒸馏方法，将高质量但体积较大、非自回归和端到端（无需声码器）的 TTS 教师模型压缩到只有 523 万参数的轻量级 Nix-TTS 模型，其具有非自回归、端到端等优点，具有良好的语音自然性和可懂度。

Abstract

Several solutions for lightweight tts have shown promising results. Still, they either rely on a hand-crafted design that reaches non-optimum size or use a neural architecture search but often suffer training costs. We present Nix-TTS, a →

lightweight tts knowledge distillation module-wise distillation autoregressive end-to-end

发现论文，激发创造

NoreSpeech: 基于知识蒸馏的条件扩散模型，用于噪声鲁棒性表达 TTS

本论文提出了一种噪声鲁棒的表现性文本转语音模型（NoreSpeech），它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中，这是通过一个新颖的 DiffStyle 模块，一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明，NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。

Nov, 2022

LightSpeech: 基于神经架构搜索的轻量级快速语音合成

本文提出了一种名为 LightSpeech 的 TTS 模型，该模型通过利用神经架构搜索自动设计出轻量级的、高效的模型，并在不损失语音质量的情况下，将模型压缩率提高了 15 倍、推断速度提高了 6.5 倍。

Feb, 2021

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

基于 Tacotron 的 TTS 的师生训练以实现鲁棒性

本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题，并使用知识蒸馏使学生模型学习教师模型的输出概率，取得了在中英文系统中对于域外测试数据语音质量的稳定提升。

Nov, 2019

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

FastSpeech 2: 快速高質量的端到端文本轉語音

提出了 FastSpeech 2，直接使用语音波形从文本中生成语音，并且通过使用更多的变化信息作为条件输入，解决了非自回归文本到语音模型中的一对多映射问题，从而实现更高的语音质量。

Jun, 2020

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

轻量级零样本文本转语音与适配器混合模型

基于大规模模型的零样本文本转语音（TTS）方法的进步展示了高保真度的说话者特征重现，但这些模型过于庞大以至于无法实际日常使用。我们提出了一种使用混合适配器（MoA）的轻量级零样本 TTS 方法。我们的方法将 MoA 模块整合到非自回归 TTS 模型的解码器和方差适配器中，通过根据说话者嵌入选择与说话者特征相关的适配器，以零样本方式增强了适应各种说话者的能力。我们的方法以最小的附加参数实现了高质量的语音合成。通过客观和主观评估，我们确认我们的方法在比基准少 40% 的参数下以 1.9 倍的推理速度实现了更好的性能。可以在我们的演示页面（此 https 网址）上找到音频样本。

Jul, 2024

基于模仿学习知识蒸馏和合成文本的端到端语音翻译改进

本文介绍了一种基于模仿学习的方法来纠正自动转录的音频输入和自动翻译的文本输出中存在的错误，通过使用这种方法，可以在英语 - 德语 CoVoST-2 和 MuST-C 数据集上优化大约 4 个 BLEU 点的 AST 结果。

Jul, 2023