Sep, 2023

通过听觉引导的零射频音频字幕生成

TL;DR音频字幕任务与图像和视频字幕任务在本质上相似,但鲜有关注。我们提出了音频字幕的三个愿景:生成文本的流畅性,生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法,不通过学习而是通过推理过程来进行字幕生成,其中涉及的三个网络对应三个期望的质量:(i)一个大型语言模型,本文中为 GPT-2,(ii)一个在音频文件和文本之间提供匹配分数的模型,我们使用一种名为 ImageBind 的多模态匹配网络,(iii)一个文本分类器,利用我们自动收集的数据集进行训练,数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果,证明了听觉指导明显提高了性能,相比缺乏这一目标的基准系统。