May, 2023

ZET-Speech:基于扩散和基于风格的模型的零样本自适应情感可控语音合成

TL;DR本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech,旨在实现对任何说话者情感语音的合成,采用了域对抗学习和扩散模型的引导方法,实验结果表明,ZET-Speech 成功地合成了所需情感的自然和情感语音,适用于已知和未知说话者。