Apr, 2023
使用指令调整的 LLM 和潜在扩散模型生成文本到语音
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model
Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
TL;DR本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器,通过使用基于声音压力级的声音混合来进行训练集增强,从而取得了比 AudioLDM 更好的结果,成为了生成文字描述音频的任务中的最佳选择。