Sep, 2023

检索辅助文本转语音生成

TL;DR我们提出了一种用于文本到音频生成的简单的检索增强方法,通过使用检索到的音频文本数据对 TTA 模型的学习进行指导,从而改善了 AudioLDM 模型在长尾数据集上的性能,在 AudioCaps 数据集上,我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法,能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。