通过归因驱动的洞见探索 VQA 模型的弱点

ACLJun, 2020

通过归因驱动的洞见探索 VQA 模型的弱点

Exploring Weaknesses of VQA Models through Attribution Driven Insights

Shaunak Halbe

TL;DR本研究分析了基于 Deep Neural Networks 的 Visual Question Answering 模型在真实场景中的应用及其受到问题输入变化的影响，并通过属性的视角对其进行了实验和对比，提出了对抗性攻击的方法，以增强系统对于可能的输入变化的鲁棒性和为视觉障碍者的辅助部署提出新的思路。

Abstract

deep neural networks have been successfully used for the task of Visual Question Answering for the past few years owing to the availability of relevant large scale datasets. However these datasets are created in artificial settings and rarely reflect the →

deep neural networks visual question answering real world scenario attribution adversarial attacks

发现论文，激发创造

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016

模型是否理解问题？

本文通过对深度学习模型的问答能力进行分析，引入了词汇重要性的概念，并借此来对问题进行扰动，从而建立对模型的评估及攻击。该方法可通过突出模型在正确率、逻辑、数据等方面的不足，提高模型的推理及总体性能表现。

May, 2018

视觉问答技巧：2017 年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索，我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

分析视觉问答模型的行为

本文研究了基于深度学习模型的视觉问答模型，发现现有模型的准确率在 60-70％之间，且本文提出系统分析这些模型行为的方法，发现这些模型存在缺点，包括不够全面、容易得出错误答案和不易更正的问题。

Jun, 2016

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

人类对抗视觉问答

通过 Adversarial VQA 测试，发现基于现有的 Visual Question Answering 模型的表现还有很大的提升空间，提出了未来研究方向，并希望 Adversarial VQA 测试能帮助推动 VQA 领域的进步和发展。

Jun, 2021

探索多种方法在视觉问答中的应用

本研究探讨了使用生成对抗网络（GANs）、自编码器和注意力机制改进视觉问答（VQA）的创新方法。研究发现，通过利用一个平衡的 VQA 数据集，GAN-based 方法提供了生成与图像和问题相关的答案嵌入的潜力，但在处理较复杂的任务时存在困难。相比之下，基于自编码器的技术专注于学习问题和图像的最佳嵌入，由于在处理复杂问题上能力更强，其结果与 GAN-based 方法相媲美。最后，注意力机制结合多模态紧凑双线性池化（MCB）来解决语言先验和注意力建模问题，但在复杂性和性能之间需要权衡。本研究强调了 VQA 领域的挑战和机遇，并提出了未来研究的方向，包括替代 GAN 的形式和注意力机制。

Apr, 2024

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022