Sep, 2023
VoiceLDM:具有环境上下文的文本转语音
VoiceLDM: Text-to-Speech with Environmental Context
Yeonghyeon Lee, Inmo Yeon, Juhan Nam, Joon Son Chung
TL;DRVoiceLDM 是一个基于潜在扩散模型的文本到音频模型,通过结合描述提示和内容提示,能够生成与输入条件对齐的逼真音频,并展示了在语音智力测试集上甚至超过参考音频的结果,同时还探索了 VoiceLDM 的文本到语音和零样本文本到音频的能力。