QS-TTS:基于向量量化的自监督语音表示学习的半监督文本朗读合成
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标上显示出优异性。
Feb, 2023
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
本文提出了一种用于提高低资源的 TTS 系统性能的方法,其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形,并使用多阶段预测器从文本中预测 MSMCRs 进行 TTS 合成,并通过优化训练策略,利用训练集增强了微型语言环境下的训练质量,并在 MOS 测试中显示出优异的性能。
Oct, 2022
本文提出了一种新的无监督文本到语音(UTTS)框架,支持零样本语音克隆和高自然度、可理解度语音合成,是从分离的语音表示学习的角度开发的多说话人语音合成器,其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展,在训练期间提供了条件分离的时序变分自编码器(C-DSVAE)作为骨干 UTTS AM。
Jun, 2022
本文提出一种新颖的生成模型,它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督,我们能够强制它们具有一致和可解释的特征,这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性(例如情感和语速),即使只监督 1%(30 分钟)。在这样低的监督水平下,我们观察不到合成质量与最先进的基线水平相比的下降。
Oct, 2019
提出了一种基于自编码器的自监督度量方法(VQScore),用于评估语音质量,并结合领域知识进行模型设计,同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明,该方法和增强模型与有监督基线模型具有竞争力。
Feb, 2024
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
我们提出了一种新的适用于文本到语音(TTS)模型的模型架构,将预训练的自监督学习(SSL)语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合,通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明,该模型表现明显不佳,我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关,我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。
Dec, 2023
提出一种名为 ParrotTTS 的文本转语音建模的替代方法,该方法基于自监督学习方法。ParrotTTS 采用两步方法,在无标签数据上训练语音到语音模型,然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数,但在转录对和讲话者自适应方面明显优于传统 TTS 模型,并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。
Mar, 2023