视觉问题回答的忠实多模态解释
该论文探讨使用引导反向传播和遮挡等可视化技术,解释视觉问答(VQA)模型的工作过程,并发现即使没有显式注意机制,VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。
Aug, 2016
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA 系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在 VQA 和其解释上实现了新的最先进的结果。
Jun, 2020
本文重点研究视觉问答(VQA)中 Black-box 多模型的解释性问题,提出 InterVQA:Interpretable-by-design VQA 方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023
该论文提出了一种在视觉问答任务中使用通感推理的方法,该方法可以通过显式推理层来解决一些需要额外知识的问题,并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎,并运用了一篮子输入来进行推理。实验证实了该方法的有效性。
Mar, 2018
通过对深度神经网络进行解释并将其应用于 VQA 等人类交互任务的研究已经取得了重大进展;然而,本研究发现目前的解释并不能提高模型的可预测性,而将模型视为黑盒的人类参与方法却能够提高可预测性。
Oct, 2018
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022
本研究提出将端到端的 VQA 分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
提出了 VQA-E 任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E 数据集从 VQA v2 数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
该研究提出了一种基于最先进的 VQA 框架的端到端解释生成模块,通过引入 LSTM 和 Transformer 解码器,生成人类可读的文本解释,同时保持 SOTA VQA 精度。
Nov, 2022