可解释的视觉问答计数

ICLRDec, 2017

Interpretable Counting for Visual Question Answering

Alexander Trott, Caiming Xiong, Richard Socher

TL;DR采用序列决策过程将计数视为挑选特定对象的离散选择，从而得到可以解释的输出。该方法在评估计数的多项度量标准上优于当前最先进的视觉问答框架。

Abstract

Questions that require counting a variety of objects in images remain a major challenge in visual question answering (VQA). The most common approaches to VQA involve either classifying answers based on fixed length representations of both the image and question or summing fractional co

visual question answering counting objects sequential decision process interpretable output state of the art

发现论文，激发创造

自然图像中物体计数的可视化问答学习

本文提出了一种神经网络组件，可以较好地解决在自然图像中计算物体数量的问题。通过实验验证表明，该组件在 VQA v2 数据集中的数字类别上具有最先进的准确性，并在平衡配对指标上实现单模型超越集成模型。

Feb, 2018

TallyQA：回答复杂的计数问题

本文提出了一种使用关系网络和区域提取来处理关于对象关系、属性识别和推理等复杂计数问题的算法，并基于创建的 TallyQA 数据集验证了该算法的优越性。

Oct, 2018

日常场景中的日常物品计数

该研究提出一种新的用于在自然场景中进行物体类别计数的方法，利用人类视觉的子数能力进行参考，能够显著提高物体类别计数的准确性，并在视觉问题回答中应用了这种方法。

Apr, 2016

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

易于解释的设计视觉问答

本文重点研究视觉问答（VQA）中 Black-box 多模型的解释性问题，提出 InterVQA：Interpretable-by-design VQA 方法，在保持最新技术水平的同时，设计了明确的中间动态推理结构，强制符号推理仅用于最终答案预测，以产生高质量的明确中间推理步骤。

May, 2023

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

在视觉问答中识别反例

该研究引入了一个新的视觉问答任务，即识别对原问题产生不同回答的图像，并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色，但研究结果表明，现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献，这表明在 VQA 基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。

Jun, 2018

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018