Nov, 2023

在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

TL;DRZerAuCap 是一个新的框架,利用预训练的大型语言模型来生成既不需要任务特定训练,又能描述音频内容的文本标注,通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本,使用音频上下文关键词来生成广义的文本,在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。