Aug, 2023

QS-TTS:基于向量量化的自监督语音表示学习的半监督文本朗读合成

TL;DR本文提出了一种新颖的半监督文本到语音(TTS)框架 QS-TTS,通过利用更多未标记的语音音频,并借助向量量化的自监督语音表示学习(VQ-S3RL)来改善 TTS 质量,从而降低对有监督数据的需求。