CVPRApr, 2024

通过问题驱动的图像标题作为提示,增强视觉问答能力

TL;DR通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响,并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像 - 问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的 GQA 性能。