Apr, 2024
通过问题驱动的图像标题作为提示,增强视觉问答能力
Enhancing Visual Question Answering through Question-Driven Image
Captions as Prompts
TL;DR通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响,并在VQA过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像-问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的GQA性能。