GPT-3 对少样本基于知识的 VQA 的经验研究

AAAISep, 2021

GPT-3 对少样本基于知识的 VQA 的经验研究

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu...

TL;DR使用图像描述作为提示，通过 GPT-3 来实现基于知识的多模态问题回答，采用少样本学习，使 PICa 在两个数据集中超过有监督的最先进水平。

Abstract

knowledge-based visual question answering (VQA) involves answering questions that require external knowledge not present in the image. Existing methods first retrieve knowledge from external resources, then reason over the selected knowledge, the input image, and question for answer pr

knowledge-based visual question answering external knowledge retrieval gpt-3 few-shot learning multimodal tasks

发现论文，激发创造

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响，并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像 - 问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的 GQA 性能。

Apr, 2024

基于知识的视觉问答的简单基准

这篇研究论文介绍了一种基于知识的视觉问答（KB-VQA）问题的方法，通过在上下文中进行高效的学习，使用问题相关的标题作为上下文信息，而无需训练或访问外部数据库或 API，实现了最先进的准确度。

Oct, 2023

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

使用答案启发式来启发大型语言模型进行基于知识的视觉问答

本论文提出了一种名为 “Prophet” 的框架，采用两个补充答案启发式条目对 GPT-3 进行提示，以提高其理解任务的能力，从而在基于知识的视觉问答方面显著优于所有现有的最先进方法，分别在 OK-VQA 和 A-OKVQA 的测试集上达到了 61.1％和 55.7％的准确率。

Mar, 2023

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

VQA 可能只需要图片标题

本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法，从而改进了 VQA 数据的质量和量，并在零样本准确性方面取得了双位数的业界领先水平。

May, 2022

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

GeReA: 针对基于知识的视觉问答的问题感知提示标题

我们提出了一种名为 GeReA 的生成 - 推理框架，利用视觉和语言信息激活了多模态大语言模型（MLLM）作为隐式知识引擎，用于基于知识的视觉问答，它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3%，超过了所有先前的最先进方法。

Feb, 2024

探讨零样本和少样本视觉问答的提示技术

本研究探索了使用各种提示策略来增强零样本视觉问答性能的方法，重点关注 BLIP2 模型，通过在多个视觉问答数据集上进行全面研究，发现精心设计的问题模板和集成附加视觉提示，如图像标题，可以提高 VQA 绩效，特别是在与少量样本示例结合使用时。

Jun, 2023