初探：通过视觉和文本解释实现可解释的 TextVQA 模型

MMApr, 2021

初探：通过视觉和文本解释实现可解释的 TextVQA 模型

A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations

Varun Nagaraj Rao, Xingjian Zhen, Karen Hovsepian, Mingwei Shen

TL;DR该论文提出了一种可解释的深度学习模型 - MTXNet，着重于图像中的文本的多模态解释生成，并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估，显示出该多模态解释与人类解释一致，有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7％，在 IoU 方面优于单模态模型至多 2％。

Abstract

explainable deep learning models are advantageous in many situations. Prior work mostly provide unimodal explanations through post-hoc approaches not part of the original system design. Explanation mechanisms also ignore useful textual information present in images. In this paper, we p

explainable deep learning mtxnet multimodal explanations training visual and textual information

发现论文，激发创造

多模态解释：证明决策并指向证据

本研究提出了一种多模态方法来解释深层模型，同时训练文本生成和注意权重可视化，研究结果表明该方法可以产生更好的文本解释模型，并能更好地定位支持分类决策的证据，从而明显优于单模态方法。

Feb, 2018

视觉问题回答的忠实多模态解释

本文提出了一种新颖的方法，开发了一个高性能的 VQA 系统，能够通过集成的文本和视觉解释阐述其答案，并捕捉到深度神经网络推理的重要方面，从而比竞争方法具有更好的自动化和人类评估指标。

Sep, 2018

关注性说明：证明决策并指向证据 (扩展摘要)

本文介绍深度模型在视觉决策问题中表现良好的同时，其透明度也导致了可解释系统的兴起，并提出了两个带注释的大规模数据集，通过视觉和文本形式保证决策的分类，同时提出了一种多模式方法，定量证明使用文本解释的训练方法不仅可以获得更好的文本解释模型，还可以更好地定位支持其决策的证据。

Nov, 2017

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

面向视觉问答中生成答案和解释的统一模型

提出了一种基于多任务学习的统一模型（UMAE）来解决现有的视觉问答系统中存在的回答和解释分离的问题，其方法涉及在训练数据集中添加人工提示令牌，并在各种 VQA 相关任务上进行细调，实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。

Jan, 2023

面向推理感知的可解释视觉问答

该研究提出了一种基于最先进的 VQA 框架的端到端解释生成模块，通过引入 LSTM 和 Transformer 解码器，生成人类可读的文本解释，同时保持 SOTA VQA 精度。

Nov, 2022

生成多模态解释的个性化展示

本研究提出了一种名为个性化展示的新任务，以更丰富的信息形式生成推荐解释，通过对来自 Google Local 的大规模数据集的构建和收集，运用对比学习的方法构建了一个个性化多模态框架，利用多种输入模态生成多样化和可视化的解释，该框架在多种评估指标上比之前的方法有更多元化和表现力。

Jun, 2022

学习的视觉特征到文本解释

利用大型语言模型解释视觉模型的学习特征，通过训练神经网络建立图像分类器和语言模型之间的连接，生成大量的句子来解释分类器学习到的特征，并提取最频繁的词语，增强图像分类器的解释性和鲁棒性。

Sep, 2023

VQA-E：为视觉问题解答进行解释、阐释和增强

提出了 VQA-E 任务，要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架， VQA-E 数据集从 VQA v2 数据集自动导出，用户研究表明，我们的方法可以生成有洞察力的文本句子来证明答案，并提高了答案预测的性能。

Mar, 2018

多模态可解释人工智能：方法学进展及未来研究方向综述

本文系统分析了多模态可解释人工智能的最新进展，主要聚焦于相关的主要预测任务、公开可用的数据集、各类 MXAI 方法、评价指标以及未来研究方向和当前挑战。

Jun, 2023