Sep, 2023

VoiceLDM:具有环境上下文的文本转语音

TL;DRVoiceLDM 是一个基于潜在扩散模型的文本到音频模型,通过结合描述提示和内容提示,能够生成与输入条件对齐的逼真音频,并展示了在语音智力测试集上甚至超过参考音频的结果,同时还探索了 VoiceLDM 的文本到语音和零样本文本到音频的能力。