Nov, 2023

预先训练文本到语音模型的潜在空间改变研究,以提高表现力

TL;DR深入探讨了在 Text-to-Speech(TTS)模型中通过在冻结的预训练模型中增加以联合语义音频 / 文本嵌入为条件的扩散模型来增强表达能力控制的挑战。论文识别了使用基于 VAE 的 TTS 模型时遇到的挑战,并评估了用于改变潜在语音特征的不同图像到图像方法。我们的结果为向 TTS 系统添加表达能力控制的复杂性提供了有价值的见解,并为未来研究开拓了新的方向。