学习紧凑的语音表示以实现低资源语言的高质量神经语音合成

Oct, 2022

学习紧凑的语音表示以实现低资源语言的高质量神经语音合成

Towards High-Quality Neural TTS for Low-Resource Languages by Learning Compact Speech Representations

Haohan Guo, Fenglong Xie, Xixin Wu, Hui Lu, Helen Meng

TL;DR本文提出了一种用于提高低资源的 TTS 系统性能的方法，其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形，并使用多阶段预测器从文本中预测 MSMCRs 进行 TTS 合成，并通过优化训练策略，利用训练集增强了微型语言环境下的训练质量，并在 MOS 测试中显示出优异的性能。

Abstract

This paper aims to enhance low-resource tts by reducing training data requirements using compact speech representations. A Multi-Stage Multi-Codebook (MSMC) VQ-GAN is trained to learn the representation, MSMCR, a

low-resource tts compact speech representations msmc vq-gan multi-stage predictor training strategy

发现论文，激发创造

一种多阶段多码本的 VQ-VAE 方法实现高性能神经 TTS

提出一种多阶段、多码本（MSMC）方法来高效实现神经 TTS 合成，该方法使用基于向量量化的变分自编码器（VQ-VAE）编码语音训练数据的 Mel 频谱图，并通过多阶段逐渐进行下采样，将它们量化为具有不同时间分辨率的多个 MSMC 表示，同时使用多个 VQ 码本。在合成中，神经声码器将预测的 MSMCR 转换为最终语音波形，该方法在 16 小时的英语 TTS 数据库中，以女性说话者的 TTS 得分（MOS）为 4.41，比基准值的 MOS（3.62）更出色，同时低参数的紧凑版本仍然可以保持高 MOS 得分，消融研究表明，多个阶段和多个码本对于实现高性能的 TTS 都是有效的。

Sep, 2022

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Mar, 2024

通过建模残差多模态实现鲁棒的 FastSpeech 2

本篇论文通过引入 TVC-GMM，一种 Trivariate-Chain 高斯分布的混合模型，将过度平滑的 mel-spectrogram 有条件解码器进行建模，从而改善表达数据集中的音频质量。

Jun, 2023

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Jun, 2024

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

低资源条件下的混合文字语音合成

我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法，通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上，这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估，结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较，使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验，结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估，以展示系统的高质量。

Dec, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

Zerospeech Challenge 2019 中的 VQVAE 无监督单元发现和多尺度 Code2Spec 反转器

我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统，并使用多种聚类算法和压缩方法进行了比较，结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。

May, 2019

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据，其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验，该方法实现了最先进的性能，较其他预训练方法相对提高了超过 40%。

Nov, 2022