iVQA: 反向视觉问答

CVPROct, 2017

iVQA: Inverse Visual Question Answering

Feng Liu, Tao Xiang, Timothy M. Hospedales, Wankou Yang, Changyin Sun

TL;DR本文提出了逆向视觉问答（iVQA）问题，并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型，可以逐渐调整其注意力焦点，以便更好地理解给定的图像。实验结果表明，我们的模型可以生成多样性、语法正确且内容相关的问题，与给定的答案相匹配。

Abstract

We propose the inverse problem of visual question answering (ivqa), and explore its suitability as a benchmark for visuo-linguistic understanding. The →

ivqa visual question answering multi-modal dynamic inference process linguistic metrics ranking metric

发现论文，激发创造

逆向视觉问答：一个新的基准和 VQA 诊断工具

本篇文章提出了 iVQA 问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉 - 语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有 VQA 模型，揭示其内在缺陷的方法。

Mar, 2018

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉问答的双重任务：视觉问题生成

提出了 Invertible Question Answering Network (iQAN) 框架，该框架通过对 VQA 和 VQG 任务同时训练，利用图像中的问题和答案之间的互补关系，使用对应的参数共享方案和正则项来明确 Q，A 之间的依赖关系，并且明确地指导训练过程。通过在 CLEVR 和 VQA2 数据集上的评估，我们的 iQAN 在基线上提高了 VQA 的准确性，并表明 iQAN 的双学习框架可以推广到其他 VQA 体系结构，并持续改进结果。

Sep, 2017

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

将视觉问答作为元学习任务

本文提出了一种元学习的方法来解决图像问题回答（VQA）问题，并采用了原型网络和元网络两种技术，通过给定的例子来推理解决给定的问题，与现有技术相比，该方法能够产生具有更高罕见回答的召回率和更好的样本效率，是学习和推理基于视觉和语言的方法的重要一步。

Nov, 2017

超越 VQA: 生成多词答案和解释来回答视觉问题

本文介绍了一种新的任务 ——ViQAR（视觉问题回答和推理），并提出了一种完全生成式的解决方案，它能够为视觉查询生成完整的答案和推理，我们通过定性和定量评估以及人类图灵测试表明，我们的模型能够生成强有力的答案和推理。

Oct, 2020

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

易于解释的设计视觉问答

本文重点研究视觉问答（VQA）中 Black-box 多模型的解释性问题，提出 InterVQA：Interpretable-by-design VQA 方法，在保持最新技术水平的同时，设计了明确的中间动态推理结构，强制符号推理仅用于最终答案预测，以产生高质量的明确中间推理步骤。

May, 2023