无需问答训练的 VQA

CVPRNov, 2018

VQA with no questions-answers training

Ben-Zion Vatashsky, Shimon Ullman

TL;DR在视觉问答中，提出了一种无需使用带有问题和答案的图像进行训练的方法，包括生成问题图表示和制定回答过程，可实现模块化学习和新领域的拓展，并可解释其答案和提供备选答案。

Abstract

Methods for teaching machines to answer visual questions have made significant progress in recent years, but current methods still lack important human capabilities, including integrating new visual classes and concepts in a modular manner, providing explanations for the answers and handling new domains without explicit examples. We propose a novel method th

visual question answering modular learning novel domains explainable ai language and visual training

发现论文，激发创造

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

将视觉问答作为元学习任务

本文提出了一种元学习的方法来解决图像问题回答（VQA）问题，并采用了原型网络和元网络两种技术，通过给定的例子来推理解决给定的问题，与现有技术相比，该方法能够产生具有更高罕见回答的召回率和更好的样本效率，是学习和推理基于视觉和语言的方法的重要一步。

Nov, 2017

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

零样本视觉问答

本文提出了一种评估 VQA 方法能力的新协议，该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力，并在此过程中凸显了当前方法的一些实际缺陷，其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验，我们提出并评估了多种实现零摄影技术需求的策略，并在标准 VQA 评估设置中实现了最先进的性能。

Nov, 2016

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

VQABQ：基础问题驱动的视觉问答

本研究提出了一种针对图像和问题的视觉问答算法，包含两个主要模块：第一个模块将问题作为输入，输出主要给定问题的基础问题；第二个模块将问题和图像作为输入，输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题，并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证，本研究的方法实现了最先进的准确性，在开放式任务中达到了 60.34％的准确度。

Mar, 2017

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

学习条件化图结构以进行可解释的视觉问答

本论文提出了一种基于图形的视觉问答新方法，该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念，旨在学习能够捕捉问题特定交互的图像表示。该方法在 VQA v2 数据集上获得了 66.18％的准确率，证明了其可解释性。

Jun, 2018

基于外部知识的自由形式视觉问答

提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法，可回答自然语言提出的关于图像内容以外信息的问题，显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。

Nov, 2015