生成再筛选：以世界知识为引导的开放式视觉问答

May, 2023

生成再筛选：以世界知识为引导的开放式视觉问答

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge

Xingyu Fu, Sheng Zhang, Gukyeong Kwon, Pramuditha Perera, Henghui Zhu...

TL;DR本研究提出了一种新的 VQA 模型管道 RASO，利用预训练语言模型生成所有可能的答案，然后训练轻量级的答案选择模型，扩大了领域内数据的知识覆盖范围，并在不额外增加计算成本的基础上将 OK-VQA 的最新成果提高了 4.1%。

Abstract

The open-ended visual question answering (VQA) task requires AI models to jointly reason over visual and natural language inputs using world knowledge. Recently, pre-trained language models (PLM) such as GPT-3 ha

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

展示、询问、关注和回答：视觉问答的强大基线

本文介绍了一种新的视觉问答任务的基线模型，它可以根据图像的内容和自然语言的问题准确地产生答案，并取得了在不平衡和平衡的VQA基准测试中的最新成果。

Apr, 2017

逆向视觉问答: 一个新的基准和 VQA 诊断工具

本篇文章提出了iVQA问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉-语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有VQA模型，揭示其内在缺陷的方法。

Mar, 2018

超越VQA: 生成多词答案和解释来回答视觉问题

本文介绍了一种新的任务——ViQAR（视觉问题回答和推理），并提出了一种完全生成式的解决方案，它能够为视觉查询生成完整的答案和推理，我们通过定性和定量评估以及人类图灵测试表明，我们的模型能够生成强有力的答案和推理。

Oct, 2020

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

使用答案启发式来启发大型语言模型进行基于知识的视觉问答

本论文提出了一种名为“Prophet”的框架，采用两个补充答案启发式条目对GPT-3进行提示，以提高其理解任务的能力，从而在基于知识的视觉问答方面显著优于所有现有的最先进方法，分别在OK-VQA和A-OKVQA的测试集上达到了61.1％和55.7％的准确率。

Mar, 2023

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试，语言指导使得CLIP的性能提高了7.6%，BLIP-2的性能提高了4.8%；使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。

Oct, 2023

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

通过挖掘问答提示发现丰富的视觉线索，为需要多样化世界知识的VQA提供支持

我们提出了一种名为Q&A Prompts的方法，该方法通过挖掘图像中的问题-回答对来发现丰富的视觉线索，并将其作为提示发送给预训练的多模态大型语言模型，以在需要涉及不同世界知识的具有挑战性的视觉问题回答数据集上实现了显著的改进。

Jan, 2024

Boter: 基于知识的VQA的知识选择和问答引导

Boter框架是一个新型的知识选择和问答系统，通过利用多模态大型语言模型的强大感知能力，显著提升了开放域知识问答的性能，取得了62.83％的最高准确率。

Apr, 2024