基于外部知识的自由形式视觉问答

Nov, 2015

基于外部知识的自由形式视觉问答

Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick

TL;DR提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法，可回答自然语言提出的关于图像内容以外信息的问题，显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。

Abstract

We propose a method for visual question answering which combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-bas

发现论文，激发创造

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

基于显式知识的视觉问答推理

使用来自大规模知识库的信息来推理图片内容，解释推理过程并回答自然语言问题的视觉问答方法，比主流的长短时记忆方法更能回答复杂问题且表现明显更好，同时提供了数据集和协议来评估这类方法。

Nov, 2015

基于属性和外部知识的图像字幕和视觉问答

本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法，并证明其在图像字幕和视觉问答中取得了显著的改进。该机制还可用于合并外部知识，特别是允许在图像中回答有关内容的问题，即使图像本身不能提供完整答案。

Mar, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

图形化结构表示用于视觉问题回答

本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于CNN/LSTM的VQA方法，本方法获得了显著的改善，其准确性从71.2％提高到74.4％，在不同的“平衡”场景中的准确性则提高了4.4％。

Sep, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

一种面向新颖物体的视觉问答的实证评估

该研究提出了一种新颖的方法，利用标注类别的图像和未标注文本语料库，为视觉问题回答中出现的未查询过的物体提供支持。通过实验验证和分析，表明该方法能够显著提高模型的鲁棒性和性能。

Apr, 2017

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的VQA算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

发掘未知的已知：将数据集中的隐式知识转化为视觉问答的显式训练样例

本文提出了一种基于数据增强的方法 SimpleAug，在不增加人工标注数量的情况下，将数据集中隐含的知识显式化，以此加强针对多模态信息的视觉问答模型，并在两个基准数据集上取得了不错的表现。

Sep, 2021

开放域问答系统能回答视觉知识问题吗？

本研究提出了一种基于文本的视觉问题解答系统，此系统无需额外外部知识，仅利用BERT模型进行重新提问，表现优异，且仅使用训练数据的10％。

Feb, 2022