Visual7W：基于图像的问答系统

CVPRNov, 2015

Visual7W: Grounded Question Answering in Images

Yuke Zhu, Oliver Groth, Michael Bernstein, Li Fei-Fei

TL;DR通过物体级别的 grounding，在图像中建立了文本描述与图像区域的语义联系，提出了一种新型维度的视觉问答任务，并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。

Abstract

We have seen great progress in basic perceptual tasks such as object recognition and detection. However, AI models still fail to match humans in high-level vision tasks due to the lack of capacities for deeper reasoning. Recently the new task of visual question answering (QA) has been

visual question answering object-level grounding lstm model spatial attention image understanding

发现论文，激发创造

为视障人士提问的视觉问题提供答案

该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集，并分析了当前 SOTA 算法在识别相关视觉证据方面的不足，尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。

Feb, 2022

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

通过跨媒体知识提取和基础加固进行多媒体多跳新闻问答的 MuMuQA

本文介绍了一个包含 1,384 个跨媒体对象基于新闻文章的多步骤问题的 QA 评估基准，并提出了一个新颖的多媒体数据增强框架，用于自动增强可以为此任务提供弱监督的数据。在我们的基准上评估了基于流水线和端到端预训练的多媒体 QA 模型，并表明它们实现了有希望的性能，但相当滞后于人类表现，因此为未来此挑战性新任务留下了很大的空间。

Dec, 2021

基于场景的视觉问题的自动生成

本文提出了一种模型，能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问，该方法在两个真实世界数据集上的实验结果表明，我们的模型在正确性和多样性方面都优于最强基线。

Dec, 2016

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023

可以相信你的回答吗？基于视觉的视频问答

我们研究了视觉基础的视频问答，以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型（VLMs）回答问题并同时提供视觉证据，我们试图确定这些技术的预测在多大程度上基于相关视频内容，而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位（或位置）标签的 NExT-GQA，我们审查了各种先进的 VLMs。通过事后注意分析，我们发现这些模型在证实答案方面表现较弱，尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题，我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明，这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力，我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。

Sep, 2023