基于注意力监控挖掘的视觉驻留解释性视觉问答

Aug, 2018

基于注意力监控挖掘的视觉驻留解释性视觉问答

Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining

Yundong Zhang, Juan Carlos Niebles, Alvaro Soto

TL;DR本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Abstract

A key aspect of vqa models that are interpretable is their ability to ground their answers to relevant regions in the image. Current approaches with this capability rely on →

vqa interpretable attention mechanism visual grounding supervised learning

发现论文，激发创造

通过推理监督实现可解释的视觉问答

我们提出了一种新的视觉问答架构，通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足，并通过相似性损失将模型的视觉注意力引导到场景的重要元素，从而提高模型的视觉感知能力和性能。

Sep, 2023

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

揭示 VQA 中视觉定位方法的全部潜力

视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而，在处理大规模视觉问题回答中常见的不完美图像表示时，这种对应视觉信息的假设是存在缺陷的，其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估，当前的评估方案存在问题。

Jan, 2024

Visual7W：基于图像的问答系统

通过物体级别的 grounding，在图像中建立了文本描述与图像区域的语义联系，提出了一种新型维度的视觉问答任务，并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。

Nov, 2015

基于晶格检索的视觉引导 VQA

本论文中，我们使用信息检索的方式来考虑 VQA 一类问题。我们提出了一种新的系统，利用图计算方法通过图像的场景图和问题中的区域表达式直接实现 VG，实验结果表明，我们的系统在 VG 性能上表现最佳。

Nov, 2022

走向透明化的 AI 系统：解释视觉问答模型

该论文探讨使用引导反向传播和遮挡等可视化技术，解释视觉问答（VQA）模型的工作过程，并发现即使没有显式注意机制，VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。

Aug, 2016

为视障人士提问的视觉问题提供答案

该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集，并分析了当前 SOTA 算法在识别相关视觉证据方面的不足，尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。

Feb, 2022

关于视觉定位在 VQA 中的作用

通过形式化的理论框架 “Visually Grounded Reasoning”，本研究揭示了在 VQA 中视觉定位的重要性，指出基于深度神经网络的 VQA 模型通过捷径学习（shortcut learning）绕过视觉定位的情况，并提出了用于测试视觉定位的 Out-of-Distribution 测试方法以及改进性能的方法。

Jun, 2024

基于注意力模型的视觉问答算法分析

本文批判性地审查和回顾了视觉问答算法的方法，例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。

May, 2023

自我批判推理用于稳健的视觉问答

该研究提出了自我批判的训练目标，通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域，确保正确答案的视觉解释与竞争答案候选者相比更匹配，以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集，使用文本解释获得 49.5％，使用自动注释区域获得 48.5％，在 VQA 泛化任务中达到了最新的技术水平。

May, 2019