视觉问答的强健性解释

Jan, 2020

Robust Explanations for Visual Question Answering

Badri N. Patro, Shivansh Pate, Vinay P. Namboodiri

TL;DR该研究提出了一个用于视觉问答（VQA）的生成鲁棒解释的方法，该模型通过提供视觉和文本解释来解释由 VQA 模型获得的答案，使用协作相关模块应对答案与文本解释不相关和视觉解释不正确的问题。在 VQA-X 数据集上的评估中，该算法具有更好的文本和视觉解释支持，对应视觉和文本解释攻击有更强的鲁棒性，且具有高度的相关性。

Abstract

In this paper, we propose a method to obtain robust explanations for visual question answering(VQA) that correlate well with the answers. Our model explains the answers obtained through a VQA model by providing visual and textual →

visual question answering explanations correlated module vqa-x dataset robustness

发现论文，激发创造

VQA-E：为视觉问题解答进行解释、阐释和增强

提出了 VQA-E 任务，要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架， VQA-E 数据集从 VQA v2 数据集自动导出，用户研究表明，我们的方法可以生成有洞察力的文本句子来证明答案，并提高了答案预测的性能。

Mar, 2018

通过比较竞争性解释来改进 VQA 及其解释

该研究提出了一种使用人工文本解释帮助视觉问答（VQA）系统选择正确答案的新框架，通过在人类文本解释上进行训练，VQA 系统可以构建更好的问题和视觉内容的表示，并重新计算训练集中生成或检索到的解释的置信度，该方法在 VQA 和其解释上实现了新的最先进的结果。

Jun, 2020

Tell-and-Answer: 基于属性和字幕的可解释视觉问答

本研究提出将端到端的 VQA 分解为解释和推理两步，使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述，然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验，我们证明了该系统具备解释性和进一步提高解释质量的内在能力。

Jan, 2018

自我批判推理用于稳健的视觉问答

该研究提出了自我批判的训练目标，通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域，确保正确答案的视觉解释与竞争答案候选者相比更匹配，以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集，使用文本解释获得 49.5％，使用自动注释区域获得 48.5％，在 VQA 泛化任务中达到了最新的技术水平。

May, 2019

基础问题对视觉问答模型的鲁棒性分析

本文提出了一种利用 LASSO 优化和 Basic Question Dataset (BQD) 以及新的 robustness measure Rscore 来分析 VQA models 鲁棒性的方法，同时希望 BQD 可以成为评估 VQA models 鲁棒性的基准。

Sep, 2017

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

面向视觉问答中生成答案和解释的统一模型

提出了一种基于多任务学习的统一模型（UMAE）来解决现有的视觉问答系统中存在的回答和解释分离的问题，其方法涉及在训练数据集中添加人工提示令牌，并在各种 VQA 相关任务上进行细调，实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。

Jan, 2023

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

通过参考生成的段落标题来提高视觉问答能力

提出了一种视觉和文本问题回答（VTQA）模型，该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题，并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练，显著提高了现有模型的性能。

Jun, 2019

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017