基于 VQA 的视觉基础方法的负面案例分析
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估,当前的评估方案存在问题。
Jan, 2024
本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型,并呈现了我们的模型的训练效果,表明其生成的视觉定位效果与手动注释的效果更接近,同时实现了最先进的 VQA 准确性。
Aug, 2018
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集,并分析了当前 SOTA 算法在识别相关视觉证据方面的不足,尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。
Feb, 2022
研究如何使用图像和相关描述文本生成合成的 Q-A 对集合,而无需人工标注,同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。
Dec, 2020
我们研究了视觉基础的视频问答,以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型(VLMs)回答问题并同时提供视觉证据,我们试图确定这些技术的预测在多大程度上基于相关视频内容,而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位(或位置)标签的 NExT-GQA,我们审查了各种先进的 VLMs。通过事后注意分析,我们发现这些模型在证实答案方面表现较弱,尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题,我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明,这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力,我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。
Sep, 2023
该研究提出了自我批判的训练目标,通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集,使用文本解释获得 49.5%,使用自动注释区域获得 48.5%,在 VQA 泛化任务中达到了最新的技术水平。
May, 2019
本论文中,我们使用信息检索的方式来考虑 VQA 一类问题。我们提出了一种新的系统,利用图计算方法通过图像的场景图和问题中的区域表达式直接实现 VG,实验结果表明,我们的系统在 VG 性能上表现最佳。
Nov, 2022