探索图像问答模型和数据

May, 2015

Image Question Answering: A Visual Semantic Embedding Model and a New Dataset

Mengye Ren, Ryan Kiros, Richard Zemel

TL;DR本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

Abstract

This work aims to address the problem of image-based question-answering (QA) with new models and datasets. In our work, we propose to use recurrent neural networks and →

发现论文，激发创造

使用卷积神经网络从图像中学习答案

本文提出使用卷积神经网络 (CNN) 解决图像问答 (QA) 问题，通过三个 CNN 模型来提升图像和问题共同表示的分类能力。经过 DAQUAR 和 COCO-QA 两个基准测试集的测试，本文的模型表现显著优于现有的最优解。

Jun, 2015

ABC-CNN: 基于注意力的卷积神经网络用于视觉问答

本研究提出一种注意力机制的卷积神经网络，可用于解决视觉问答任务，有效提升已有方法的准确率，并生成与问题相关的关注区域。

Nov, 2015

基于外部知识的自由形式视觉问答

提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法，可回答自然语言提出的关于图像内容以外信息的问题，显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。

Nov, 2015

基于属性和外部知识的图像字幕和视觉问答

本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法，并证明其在图像字幕和视觉问答中取得了显著的改进。该机制还可用于合并外部知识，特别是允许在图像中回答有关内容的问题，即使图像本身不能提供完整答案。

Mar, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

通过问具有区分性的问题来学习消歧

本文介绍了一种用于视觉实例辨析的问答生成方法，通过提出一个包含超过1万张图像和相应的有辨识度和无辨识度问题样本的数据集，以及利用现有的视觉问答数据集进行弱监督学习，显著超越了传统对比方法。

Aug, 2017

学习视觉问答的答案嵌入

该研究提出了一种新的概率模型，用于视觉问答中的多项选择，将嵌入视觉、问答和回答，并考虑到回答之间的语义关系，从而提高了对新问题的表现。

Jun, 2018

发掘未知的已知：将数据集中的隐式知识转化为视觉问答的显式训练样例

本文提出了一种基于数据增强的方法 SimpleAug，在不增加人工标注数量的情况下，将数据集中隐含的知识显式化，以此加强针对多模态信息的视觉问答模型，并在两个基准数据集上取得了不错的表现。

Sep, 2021

从图像池中挖掘答案：走向基于检索的视觉问答

本文介绍了一种针对多张图片中远程问答的视觉问答模型，并提出了一个名为 RETVQA 的具有多图和检索需求的新数据集，使用 MI-BART 模型在该数据集上取得了良好的表现。

Jun, 2023