走向透明化的 AI 系统：解释视觉问答模型

Aug, 2016

走向透明化的 AI 系统：解释视觉问答模型

Towards Transparent AI Systems: Interpreting Visual Question Answering Models

Yash Goyal, Akrit Mohapatra, Devi Parikh, Dhruv Batra

TL;DR该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Abstract

deep neural networks have shown striking progress and obtained state-of-the-art results in many AI research fields in the recent years. However, it is often unsatisfying to not know why they predict what they do. In this paper, we address the problem of interpreting →

deep neural networks visual question answering interpretation guided backpropagation occlusion

发现论文，激发创造

易于解释的设计视觉问答

本文重点研究视觉问答（VQA）中 Black-box 多模型的解释性问题，提出 InterVQA：Interpretable-by-design VQA 方法，在保持最新技术水平的同时，设计了明确的中间动态推理结构，强制符号推理仅用于最终答案预测，以产生高质量的明确中间推理步骤。

May, 2023

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

基于注意力模型的视觉问答算法分析

本文批判性地审查和回顾了视觉问答算法的方法，例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。

May, 2023

视觉问答模型中显式偏差的发现

本研究利用规则挖掘算法对视觉问答模型中的数据偏差进行分析，并从中发现了一些亮点和异常行为。

Nov, 2018

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

视觉问答技巧：2017 年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索，我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

医学图像视觉问答的问题中心模型

本论文提出一种基于视觉问答的方法来查询深度学习模型的行为，通过在多个医学和自然图像数据集上进行实验，证明该方法较目前方法具有相同或更高的准确度，有效地解决了深度学习方法缺乏透明性的问题。

Mar, 2020

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

通过归因驱动的洞见探索 VQA 模型的弱点

本研究分析了基于 Deep Neural Networks 的 Visual Question Answering 模型在真实场景中的应用及其受到问题输入变化的影响，并通过属性的视角对其进行了实验和对比，提出了对抗性攻击的方法，以增强系统对于可能的输入变化的鲁棒性和为视觉障碍者的辅助部署提出新的思路。

Jun, 2020