Nov, 2022

NoreSpeech: 基于知识蒸馏的条件扩散模型,用于噪声鲁棒性表达 TTS

TL;DR本论文提出了一种噪声鲁棒的表现性文本转语音模型(NoreSpeech),它能够从嘈杂的语音参考中有效地转移说话风格到合成语音中,这是通过一个新颖的 DiffStyle 模块,一个 VQ-VAE 块和一个可控的文本对齐模块实现的。实验表明,NoreSpeech 在噪声环境中比以前的表现性 TTS 模型更有效。