用于可解释图像问题回答的内在子图生成

Mar, 2024

用于可解释图像问题回答的内在子图生成

Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering

Pascal Tilli, Ngoc Thang Vu

TL;DR这篇论文引入了一种可解释的基于图的VQA方法，并在GQA数据集上展示了竞争性的性能，通过在问答过程中生成一个子图作为解释来提供决策过程的洞察力。

Abstract

The large success of deep learning based methods in visual question answering (VQA) has concurrently increased the demand for explainable methods. Most methods in →

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

图形化结构表示用于视觉问题回答

本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于CNN/LSTM的VQA方法，本方法获得了显著的改善，其准确性从71.2％提高到74.4％，在不同的“平衡”场景中的准确性则提高了4.4％。

Sep, 2016

VQA-E：为视觉问题解答进行解释、阐释和增强

提出了VQA-E任务，要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架， VQA-E数据集从VQA v2数据集自动导出，用户研究表明，我们的方法可以生成有洞察力的文本句子来证明答案，并提高了答案预测的性能。

Mar, 2018

学习条件化图结构以进行可解释的视觉问答

本论文提出了一种基于图形的视觉问答新方法，该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念，旨在学习能够捕捉问题特定交互的图像表示。该方法在VQA v2数据集上获得了66.18％的准确率，证明了其可解释性。

Jun, 2018

利用场景图和视觉注意力为视觉问答生成自然语言解释

本文介绍了一种新的方法来生成自然语言的解释，解释视觉问答（VQA）问题的答案，其包含图像中支持答案的证据，使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome（VG）数据集上运行算法，并进行内部用户研究，证明了我们的方法的有效性。

Feb, 2019

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

理解场景图在视觉问答中的作用

本文通过实验探讨使用场景图（Scene Graphs）解决视觉问答（Visual Question Answering）任务。作者采用图像+问题架构研究场景图的各种生成技术，建议一套训练课程以利用人类注释和自动生成的场景图，并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决VQA的多方面研究，是其类型中的首次探索。

Jan, 2021

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了Visual Question Answering——Graph Neural Network模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

面向推理感知的可解释视觉问答

该研究提出了一种基于最先进的VQA框架的端到端解释生成模块，通过引入LSTM和Transformer解码器，生成人类可读的文本解释，同时保持SOTA VQA精度。

Nov, 2022

易于解释的设计视觉问答

本文重点研究视觉问答（VQA）中Black-box多模型的解释性问题，提出InterVQA：Interpretable-by-design VQA方法，在保持最新技术水平的同时，设计了明确的中间动态推理结构，强制符号推理仅用于最终答案预测，以产生高质量的明确中间推理步骤。

May, 2023