揭示 VQA 中视觉定位方法的全部潜力

Jan, 2024

揭示 VQA 中视觉定位方法的全部潜力

Uncovering the Full Potential of Visual Grounding Methods in VQA

Daniel Reich, Tanja Schultz

TL;DR视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而，在处理大规模视觉问题回答中常见的不完美图像表示时，这种对应视觉信息的假设是存在缺陷的，其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估，当前的评估方案存在问题。

Abstract

visual grounding (VG) methods in visual question answering (vqa) attempt to improve →

visual grounding visual question answering vqa image representations evaluation schemes

发现论文，激发创造

关于视觉定位在 VQA 中的作用

通过形式化的理论框架 “Visually Grounded Reasoning”，本研究揭示了在 VQA 中视觉定位的重要性，指出基于深度神经网络的 VQA 模型通过捷径学习（shortcut learning）绕过视觉定位的情况，并提出了用于测试视觉定位的 Out-of-Distribution 测试方法以及改进性能的方法。

Jun, 2024

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

基于晶格检索的视觉引导 VQA

本论文中，我们使用信息检索的方式来考虑 VQA 一类问题。我们提出了一种新的系统，利用图计算方法通过图像的场景图和问题中的区域表达式直接实现 VG，实验结果表明，我们的系统在 VG 性能上表现最佳。

Nov, 2022

测量 VQA 中忠实和可信的视觉沟通

本文提出了一种新的 VG 度量标准，称为 “Faithful and Plausible Visual Grounding”（FPVG），可以衡量一个系统是否能正确识别与问题相关的目标，并在回答问题时可靠地使用这些目标信息，该方法可以用于评估和分析各种 VQA 模型设计。

May, 2023

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

可以相信你的回答吗？基于视觉的视频问答

我们研究了视觉基础的视频问答，以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型（VLMs）回答问题并同时提供视觉证据，我们试图确定这些技术的预测在多大程度上基于相关视频内容，而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位（或位置）标签的 NExT-GQA，我们审查了各种先进的 VLMs。通过事后注意分析，我们发现这些模型在证实答案方面表现较弱，尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题，我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明，这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力，我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。

Sep, 2023

为视障人士提问的视觉问题提供答案

该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集，并分析了当前 SOTA 算法在识别相关视觉证据方面的不足，尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。

Feb, 2022

Visual7W：基于图像的问答系统

通过物体级别的 grounding，在图像中建立了文本描述与图像区域的语义联系，提出了一种新型维度的视觉问答任务，并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。

Nov, 2015

视觉语言 Transformer 中基于弱监督的 VQA grounding

该论文提出了一个基于 Transformer 的弱监督环境下的视觉问答定位方法，该方法通过将每个视觉令牌分组并利用自注意力来遮蔽那些胶囊，从而改善了检测物品能力限制的问题。经过实验证明，该方法提出了新的最先进结果。

Jul, 2022

运用场景知识推进视觉连接：基准与方法

本文提出了一个新的基准数据集 SK-VG，其中图像内容和指代表达不足以确定目标对象，迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入，前者在图像查询交互之前将知识嵌入图像特征，后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性，并展示了他们取得的有希望的结果，但仍有改进的空间，包括性能和可解释性。

Jul, 2023