QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

Aug, 2023

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning

PDF

Haohan Guo, Fenglong Xie, Jiawen Kang, Yujia Xiao, Xixin Wu...

TL;DR本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Abstract

This paper proposes a novel semi-supervised tts framework, QS-TTS, to improve TTS quality with lower supervised data requirements via Vector-Quantized Self-Supervised speech representation Learning (→

tts framework semi-supervised learning vq-s3rl speech representation low-resource scenarios

发现论文，激发创造

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

学习紧凑的语音表示以实现低资源语言的高质量神经语音合成

本文提出了一种用于提高低资源的 TTS 系统性能的方法，其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形，并使用多阶段预测器从文本中预测 MSMCRs 进行 TTS 合成，并通过优化训练策略，利用训练集增强了微型语言环境下的训练质量，并在 MOS 测试中显示出优异的性能。

Oct, 2022

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Jun, 2022

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

仅使用清晰语音的自监督语音质量估计和增强

提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Feb, 2024

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

一个实验研究：评估 WavLM 和 BEST-RQ 的组合框架在文本到语音合成中的应用

我们提出了一种新的适用于文本到语音（TTS）模型的模型架构，将预训练的自监督学习（SSL）语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合，通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明，该模型表现明显不佳，我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关，我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。

Dec, 2023

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023