CommVQA: 在交际语境中定位视觉问题回答

Feb, 2024

CommVQA: 在交际语境中定位视觉问题回答

CommVQA: Situating Visual Question Answering in Communicative Contexts

Nandita Shankar Naik, Christopher Potts, Elisa Kreiss

TL;DR当前的视觉问答（VQA）模型倾向于在孤立的图像 - 问题对上进行训练和评估。然而，人们提出的问题取决于他们的信息需求和对图像内容的先前知识。为了评估如何将图像置于自然语境中以形成视觉问题，我们引入了 CommVQA，这个 VQA 数据集包括图像、图像描述、可能出现图像的现实沟通场景（例如旅行网站），以及依赖于场景的后续问题和答案。我们发现，CommVQA 对当前模型构成了挑战。向 VQA 模型提供情境信息可以广泛提高性能，凸显了将系统置于沟通场景中的相关性。

Abstract

Current visual question answering (VQA) models tend to be trained and evaluated on image-question pairs in isolation. However, the questions people ask are dependent on their informational needs and prior knowledge about the image content. To evaluate how situating images within natura

visual question answering vqa models commvqa contextual information communicative scenario

发现论文，激发创造

上下文感知的目的明确视觉问答

通过引入 Context-VQA 数据集，我们发现上下文会影响问题的类型，对于满足人们的需求，尤其是在可访问性设置中，VQA 模型应该具有上下文敏感性。

Jul, 2023

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

利用视觉问答进行图像字幕排名

本研究将视觉问题回答任务视为 “特征提取” 模块，提取图像和标题的表征，以此为基础对图像 - 标题进行排序并提出融合模型提高图像 - 标题匹配一致性的表现。实验发现，该模型在 MSCOCO 数据集上的字幕检索提高了 7.1％，图像提取提高了 4.4％。

May, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

视觉问答模型和人类智能的认知比较研究

通过比较视觉问答模型的输出和注意力图与人类的相似之处，研究发现虽然 VQA 模型在结构和识别水平上与人类相似，但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究，并在建模特征和架构中引入更多的认知能力。

Oct, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022