基于晶格检索的视觉引导 VQA
通过形式化的理论框架 “Visually Grounded Reasoning”,本研究揭示了在 VQA 中视觉定位的重要性,指出基于深度神经网络的 VQA 模型通过捷径学习(shortcut learning)绕过视觉定位的情况,并提出了用于测试视觉定位的 Out-of-Distribution 测试方法以及改进性能的方法。
Jun, 2024
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估,当前的评估方案存在问题。
Jan, 2024
本文提出了一种新的 VG 度量标准,称为 “Faithful and Plausible Visual Grounding”(FPVG),可以衡量一个系统是否能正确识别与问题相关的目标,并在回答问题时可靠地使用这些目标信息,该方法可以用于评估和分析各种 VQA 模型设计。
May, 2023
本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型,并呈现了我们的模型的训练效果,表明其生成的视觉定位效果与手动注释的效果更接近,同时实现了最先进的 VQA 准确性。
Aug, 2018
为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题,提出了利用视觉提示进行 VQA 模型性能优化的方法,但实现的改进并不是由于视觉提示的影响,而是正则化效应,为此提出了一种不需要外部数据注释的简单正则化方案。
Apr, 2020
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
我们研究了视觉基础的视频问答,以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型(VLMs)回答问题并同时提供视觉证据,我们试图确定这些技术的预测在多大程度上基于相关视频内容,而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位(或位置)标签的 NExT-GQA,我们审查了各种先进的 VLMs。通过事后注意分析,我们发现这些模型在证实答案方面表现较弱,尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题,我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明,这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力,我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。
Sep, 2023
该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集,并分析了当前 SOTA 算法在识别相关视觉证据方面的不足,尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。
Feb, 2022
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
通过物体级别的 grounding,在图像中建立了文本描述与图像区域的语义联系,提出了一种新型维度的视觉问答任务,并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。
Nov, 2015