使用语言模型反馈的零样本视觉问答

ACLMay, 2023

使用语言模型反馈的零样本视觉问答

Zero-shot Visual Question Answering with Language Model Feedback

Yifan Du, Junyi Li, Tianyi Tang, Wayne Xin Zhao, Ji-Rong Wen

TL;DR该论文提出了一种基于语言模型的字幕模型 LAMOC 方法，用于知识为基础的视觉问题回答（VQA），通过预训练语言模型作为答案预测模型的上下文，实现引导字幕模型的训练和优化，以提高其对任务目标和信息需求的感知能力。

Abstract

In this paper, we propose a novel language model guided captioning approach, LAMOC, for knowledge-based visual question answering (VQA). O

language model captioning visual question answering pre-trained language model training stages

发现论文，激发创造

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响，并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像 - 问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的 GQA 性能。

Apr, 2024

基于知识的视觉问答的简单基准

这篇研究论文介绍了一种基于知识的视觉问答（KB-VQA）问题的方法，通过在上下文中进行高效的学习，使用问题相关的标题作为上下文信息，而无需训练或访问外部数据库或 API，实现了最先进的准确度。

Oct, 2023

基于零样本知识生成的基于知识的视觉问答

基于预训练语言模型的知识生成方法在知识型视觉问答方面表现优于以往零样本方法，生成的知识普遍相关且有帮助。

Feb, 2024

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

从图像到文本提示：使用 Frozen 大语言模型进行零样本 VQA

提出了 Img2Prompt 模块，它可以提供可以描述图像内容和自构建问题答案对的提示，并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。

Dec, 2022

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

冻结 LLMs 的少样本 VQA 方法比较

通过对 LLMs 的两种输入图像的方法进行比较，本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型，将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能，在零样本情况下，使用文本图像标题效果更好。在少样本情况下，如何选择上下文示例决定了哪个更好。

Mar, 2024