以视觉问题作为监督形式：一个问题中包含了什么

CVPRApr, 2017

以视觉问题作为监督形式：一个问题中包含了什么

What's in a Question: Using Visual Questions as a Form of Supervision

Siddha Ganju, Olga Russakovsky, Abhinav Gupta

TL;DR本文研究了利用视觉问题对图像进行弱监督的方法，提出了两种简单但有效的修改标准视觉问答模型的方法，并展示了基于这些方法的数据增强策略在标准 VQA 基准测试上的 7.1％改进。

Abstract

Collecting fully annotated image datasets is challenging and expensive. Many types of weak supervision have been explored: weak manual annotations, web search results, temporal continuity, ambient sound and other

weak supervision visual questions data augmentation visual question answering image datasets

发现论文，激发创造

弱监督视觉问答生成

本文提出一种弱监督视觉问答生成方法，从视觉信息和字幕中合成问答对，使用 ViLBERT 模型对其进行微调，实验结果在 VQA 数据集上表现显著优于其他先进技术。

Jun, 2023

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

无法回答的视觉问答

本研究旨在构建一个值得信赖的 AI 系统，通过为 Visual Question Answering（VQA）模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白，该数据集特别设计用于解决无法回答的问题。同时，通过对图像或问题进行有意的扰动，充分评估了多模式大型模型的零或少样本性能，并提出了解决这些无法回答问题的简单方法。这一数据集将为提升 VQA 模型的弃权能力提供一个有价值的基准，从而增加 AI 系统的可信度。

Oct, 2023

医学图像视觉问答的问题中心模型

本论文提出一种基于视觉问答的方法来查询深度学习模型的行为，通过在多个医学和自然图像数据集上进行实验，证明该方法较目前方法具有相同或更高的准确度，有效地解决了深度学习方法缺乏透明性的问题。

Mar, 2020

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

基于场景的视觉问题的自动生成

本文提出了一种模型，能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问，该方法在两个真实世界数据集上的实验结果表明，我们的模型在正确性和多样性方面都优于最强基线。

Dec, 2016

视觉问答：近期文献中的技术和普遍趋势调查

这篇论文调查了目前在视觉问答领域的多项研究，并提供了深入的分析和比较，包括结果、现有技术的状态、常见错误以及未来研究的可能改进点。

May, 2023

生成关于图像的自然问题

探索了关于一张图片是如何引发常识推理和抽象事件的问题，提出了一项新颖任务视觉问题生成（VQG），该系统的任务是在展示了一张图片后提出自然而引人入胜的问题，我们提供了三个数据集，涵盖了从目标为中心到事件为中心的各种图像，其中训练数据远比现有最先进的字幕系统提供的数据更抽象，通过训练和测试几种生成和检索模型来解决 VQG 这个任务，评估结果表明，尽管这样的模型为各种图像提出了合理的问题，但与人类性能的差距仍然很大，这激发了我们进一步探索将图像与常识和语用知识联系起来的相关研究。

Mar, 2016