视觉问答模型中显式偏差的发现

Nov, 2018

Explicit Bias Discovery in Visual Question Answering Models

Varun Manjunatha, Nirat Saini, Larry S. Davis

TL;DR本研究利用规则挖掘算法对视觉问答模型中的数据偏差进行分析，并从中发现了一些亮点和异常行为。

Abstract

Researchers have observed that visual question answering (VQA) models tend to answer questions by learning statistical biases in the data. For example, their answer to the question "What is the color of the grass

visual question answering statistical biases rule mining algorithms attention maps unusual behaviors

发现论文，激发创造

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016

超越基于问题偏见：对多模态快捷学习在视觉问答中的评估

本文介绍了一个用于诊断视觉问答（VQA）模型中快速学习情况的评估方法，并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法，首先在流行的 VQA v2 训练集中确定了可能的快速方式，然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples（VQA-CE）评估协议进行了大规模研究，发现即使是最先进的模型也难以处理这个复杂的问题。

Apr, 2021

视觉问答模型和人类智能的认知比较研究

通过比较视觉问答模型的输出和注意力图与人类的相似之处，研究发现虽然 VQA 模型在结构和识别水平上与人类相似，但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究，并在建模特征和架构中引入更多的认知能力。

Oct, 2023

将视觉问答作为元学习任务

本文提出了一种元学习的方法来解决图像问题回答（VQA）问题，并采用了原型网络和元网络两种技术，通过给定的例子来推理解决给定的问题，与现有技术相比，该方法能够产生具有更高罕见回答的召回率和更好的样本效率，是学习和推理基于视觉和语言的方法的重要一步。

Nov, 2017

易于解释的设计视觉问答

本文重点研究视觉问答（VQA）中 Black-box 多模型的解释性问题，提出 InterVQA：Interpretable-by-design VQA 方法，在保持最新技术水平的同时，设计了明确的中间动态推理结构，强制符号推理仅用于最终答案预测，以产生高质量的明确中间推理步骤。

May, 2023

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

分析视觉问答模型的行为

本文研究了基于深度学习模型的视觉问答模型，发现现有模型的准确率在 60-70％之间，且本文提出系统分析这些模型行为的方法，发现这些模型存在缺点，包括不够全面、容易得出错误答案和不易更正的问题。

Jun, 2016

逆向视觉问答：一个新的基准和 VQA 诊断工具

本篇文章提出了 iVQA 问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉 - 语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有 VQA 模型，揭示其内在缺陷的方法。

Mar, 2018

玫瑰是红的，紫罗兰是蓝的…… 但 VQA 应该期望它们出现吗？

本文提出了 GQA-OOD 基准来评估视觉问答模型的推理能力，旨在解决现有基准存在的数据集偏差和评估方法的不足，并通过大规模实验验证了现有模型在处理罕见概念时的不足，提出了减少偏差的技术用于未来研究。

Jun, 2020

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016