阴阳平衡: 解答二元视觉问题

Nov, 2015

Yin and Yang: Balancing and Answering Binary Visual Questions

Peng Zhang, Yash Goyal, Douglas Summers-stay, Dhruv Batra, Devi Parikh

TL;DR本篇论文提出了一种基于语言先验并控制语言作用的方法来解决基于抽象场景的二分类视觉问题回答，实现了在平衡的数据集上超越现有最先进方法的结果。

Abstract

The complex compositional structure of language makes problems at the intersection of vision and language challenging. But language also provides a strong prior that can result in good superficial performance, without the underlying models truly understanding the visual content. This can hinder progress in pushing state of art in the computer vision aspects

发现论文，激发创造

视觉问答的组合记忆

本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法，使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起，并将融合的信息进一步结合生成动态信息，最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。

Nov, 2015

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

iVQA: 反向视觉问答

本文提出了逆向视觉问答（iVQA）问题，并探讨其作为视觉语言理解基准的适用性。我们提出了一种iVQA模型，可以逐渐调整其注意力焦点，以便更好地理解给定的图像。实验结果表明，我们的模型可以生成多样性、语法正确且内容相关的问题，与给定的答案相匹配。

Oct, 2017

逆向视觉问答: 一个新的基准和 VQA 诊断工具

本篇文章提出了iVQA问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉-语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有VQA模型，揭示其内在缺陷的方法。

Mar, 2018

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案，用于解决视觉问答中视觉和语言特征的融合问题，并取得了新的最优结果，而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。

Apr, 2018

VQA-LOL: 逻辑视角下的视觉问答

本文研究了视觉问答系统是否能够回答多个经过逻辑组合的问题，并构建了一个逻辑复合和语言转换（否定、析取、合取和反义词）的VQA基准库。其中提出了一种使用问题注意力和逻辑注意力的“Lens of Logic（LOL）”模型，并采用新颖的Frechet-Compatibility Loss来保证组成问题的回答与推断出的逻辑操作一致。该模型在学习逻辑组合时表现出显著的提升，同时保持VQA的性能，从而将逻辑连接词嵌入到视觉理解中实现了鲁棒性的提高。

Feb, 2020

神经符号视觉推理：将“视觉”与“推理”分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的GQA数据集上进行深入的分离比较，可以了解到众所周知的VQA模型参与的见解以及任务。

Jun, 2020

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023