Apr, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

TL;DR本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器,通过使用基于声音压力级的声音混合来进行训练集增强,从而取得了比 AudioLDM 更好的结果,成为了生成文字描述音频的任务中的最佳选择。