利用场景图和视觉注意力为视觉问答生成自然语言解释

Feb, 2019

利用场景图和视觉注意力为视觉问答生成自然语言解释

Generating Natural Language Explanations for Visual Question Answering using Scene Graphs and Visual Attention

Shalini Ghosh, Giedrius Burachas, Arijit Ray, Avi Ziskind

TL;DR本文介绍了一种新的方法来生成自然语言的解释，解释视觉问答（VQA）问题的答案，其包含图像中支持答案的证据，使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome（VG）数据集上运行算法，并进行内部用户研究，证明了我们的方法的有效性。

Abstract

In this paper, we present a novel approach for the task of explainable question answering (XQA), i.e., generating natural language (NL) explanations for the visual question answering (VQA) problem. We generate NL

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

Tell-and-Answer: 基于属性和字幕的可解释视觉问答

本研究提出将端到端的VQA分解为解释和推理两步，使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述，然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验，我们证明了该系统具备解释性和进一步提高解释质量的内在能力。

Jan, 2018

VQA-E：为视觉问题解答进行解释、阐释和增强

提出了VQA-E任务，要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架， VQA-E数据集从VQA v2数据集自动导出，用户研究表明，我们的方法可以生成有洞察力的文本句子来证明答案，并提高了答案预测的性能。

Mar, 2018

R-VQA: 通过语义关注学习视觉关系事实用于视觉问答

通过构建 Relation-VQA 数据集，并采用新颖的多步注意力模型，该论文提出了一种更好地利用图像语义知识的视觉关系事实学习框架，从而在视觉问答任务中取得了最先进的性能。

May, 2018

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在Visual Genome数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

通过比较竞争性解释来改进VQA及其解释

该研究提出了一种使用人工文本解释帮助视觉问答（VQA）系统选择正确答案的新框架，通过在人类文本解释上进行训练，VQA系统可以构建更好的问题和视觉内容的表示，并重新计算训练集中生成或检索到的解释的置信度，该方法在VQA和其解释上实现了新的最先进的结果。

Jun, 2020

理解场景图在视觉问答中的作用

本文通过实验探讨使用场景图（Scene Graphs）解决视觉问答（Visual Question Answering）任务。作者采用图像+问题架构研究场景图的各种生成技术，建议一套训练课程以利用人类注释和自动生成的场景图，并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决VQA的多方面研究，是其类型中的首次探索。

Jan, 2021

CLEVR-X：自然语言解释的视觉推理数据集

本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法，使用CLEVR-X数据集进行自然语言解释的基线结果分析，以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。

Apr, 2022

用于可解释图像问题回答的内在子图生成

这篇论文引入了一种可解释的基于图的VQA方法，并在GQA数据集上展示了竞争性的性能，通过在问答过程中生成一个子图作为解释来提供决策过程的洞察力。

Mar, 2024